確率モデルに基づく文書ストリームからのホットトピック抽出

木村 学 (0551043)


本発表では,新聞記事のような文書ストリームを対象に, ホットトピック抽出法に関する検討結果を報告する.具体的には, 文書出現の確率モデルを土台にした Kleinberg の抽出法に対し, 単語出現の確率モデルを土台にした改良法を提案する.

ホットトピック抽出研究において, Kleinbergが提案した抽出法は, それまでの抽出法では困難であった長期間のホットトピック抽出を 適切に行うことに成功した手法である. しかしながら,Kleinbergの手法は 関連性の低い文書群も抽出する傾向が観測された. そこで,本研究は単語の発生頻度を考慮し,その傾向を抑え関連性の高い文書のみを抽出することを試みた.

新聞記事一年間分を用いた評価実験では, 人手で抽出したホットトピック群に対し, Kleinberg のオリジナル抽出法と比較して, 提案法が高い抽出性能を示したことを報告する. %さらに,複数単語の共起を考慮したホットトピックの抽出を実現するための初期実験として行ったホットトピックの可視化実験の結果も報告する. さらに,ホットトピック間の関係を分析するために トピック間の類似尺度と可視化法を提案し, その有効性を定性的に確認 した.