Automatic Text Summarization with Probabilistic Latent Semantic Indexing (Probabilistic Latent Semantic Indexing によるテキストの自動要約)

Harendra Bhandari (0651150)


English Abstract

n this research a new method for summarizing documents based on Probabilistic Latent Semantic Indexing has been explored. The main focus of the the research has been on generic and extract based summary. In other words we focused on extracting sentences from the document that provided the maximum amount of information related to the document in a condensed form. The quality of generic summary is determined by the amount of information that can be bundled in the summary. The information present in any document is related to varied number of topics and a quality generic summary should be able to present the information related to all the topics. In this research this fact has been given the central importance. The approach towards summarization has been to rst classify sentences into several topics and then select sentences systematically using the information that we can get after the classi cation of sentences. We used Probabilisitc Latent Semantic Indexing to classify the sentences into several classes. Probabilist Latent Semantic Indexing has proved to be a very good performer in text retrieval and indexing tasks. Generally Probabilistic Latent Semantic Indexing is used in the word level but in this research we apply it in the sentence level. In this research a novel technique of combining graph-based algorithms with PLSI has been explored too. The results showed that the combination of graph-based algorithms with PLSI gave a good performance. In this research we created system for both single and multi-document summarization tasks. For the testing purpose we used the data set provided by Document Understanding Conference (DUC). DUC provides data set for both single and multidocument summarization. Typically a DUC data set contains a large set of documents with human created summaries for comparision. The evaluation of the summarieswas done using ROUGE. ROUGE is a very widely adopted method for evaluation of summaries. It has been adopted by DUC for its tasks as well. The results of the evaluation showed that our system indeed performed very well for both single and multiple-document summarization tasks. In the upcoming sections the methods for summarization and the results will be presented.

日本語

インターネットの普及にともなって, 人々がアクセスできる文書の量は急激に増加している. しかしながら, この膨大な数の文書から探している情報を見つけ出す作業は容易ではない。 検索エンジンを用いれば, 情報が載っている可能性のある文書をある程度 絞りこむことはできるが, 絞りこんだ文書数がなお多すぎて手に余る, ということが少なくない. 仮にこれらの文書それぞれに要約が付されていれば, 文書全文を読まなくても内容が分かるため, 情報を探す大きな手助けになると期待できる。 とはいえ, 大量の文書に対してあらかじめ要約を人手で作成し 用意しておくことは現実的に不可能である. したがって自動的に要約を作成する必要があるが, 自動作成した要約文が, 元の文の内容を十分伝えていなければ, 利用者の役には立たない。 本論文では自動要約の質を向上させることを目的として, Probabilistic Latent Semantic Indexing (PLSI) を利用した文書要約法を提案する。 多くの文書には複数のテーマまたはトピックが 含まれている, という考えに基づいて, この手法ではまず, PLSI を用いて文書に含まれる文をトピックごとに分類する. その後すべてのトピックを網羅するように文の集合を抽出し, 要約文として利用する。 網羅的にトピックを選択する理由は, 要約文の中には元の文書中のトピックができるだけ多く含まれていることが望ましい, という直観に基づいている. 本論文で開発した PLSI に基づく自動文書要約システムは, 単一文書要約および複数文書要約の双方に対処できる. Document Understanding Conference が 自動要約システムの評価用として公開している ベンチマークデータを利用して システムの性能評価を行ったところ, 既存の自動要約手法を凌駕する精度を得た.