非即時的なタスク設定における固有表現抽出の改善

澤山 熱気 (1651056)


インターネットの普及以降,膨大な数の科学技術論文を誰でも手軽に獲得できるようになった. また,最新の研究成果が日々投稿され公開されている. 投稿される論文の数が膨大であるため,たとえその分野の専門家(或いは研究者)であっても, 論文すべての内容に目を通し,理解することは非常に困難な状況にある. この問題を緩和する方法として,自動知識抽出システムの利用が考えられる. こういったシステムを利用することで,大量の論文から自分が必要とする情報を比較的容易に獲得することができるようになり, 専門家の情報収集の労力が大幅に軽減されることが期待できる. そこで本研究では,自動抽出システムにおいて最初の処理にあたる固有表現抽出(Named Entity Recognition, NER)の精度の向上に焦点を当て, 科学技術論文からの知識抽出に向けた固有表現抽出の特性を考え,その特性に即した固有表現抽出法を提案する. 本研究では特に,「頻出する規則性のある新しい用語」と「非即時的なタスク設定」の二点に着目する.