ゼミナール発表

日時: 7月25日(月)3限 (13:30-15:00)


会場: L2

司会:Sakriani Sakti
平野 徹 D 松本 裕治 中村 哲 新保 仁 小町 守
発表題目:大規模知識獲得のための固有名詞間の関係抽出
発表概要:Web上に存在する膨大なテキストは広い分野をカバーしており,巨大 な知識源と考えることができる.しかし,テキストは単語の一次元列であり情報 の構造(要素間の関係)が明示的に表現されていないため,テキストをそのまま知 識源として利用することは難しい.テキストを知識源として活用するには,個々 のテキストに含まれる情報を抽出して構造化された形式に変換する必要がある. 本研究では,情報検索や質問応答などのアプリケーションにおいて重要な知識源 となる,人名や組織名,地名などの実世界の実体を指し示す固有名詞間の関係を 抽出することを目指す.具体的には,個々のテキストで言及されている,意味的 な関係のある固有名詞の組(X,Y)とその間の関係(R)を[X,Y,R]の構造化された形 で抽出するために,(1)入力テキスト内で共起する固有名詞の組から何らかの関 係を有する組を選択し,(2)選択された組がどういう関係にあるのかを示す表現 を入力テキストから抽出し,(3)関係を示す表現がテキスト中に存在しない組の 関係を推定する,3ステップで実現を目指す.我々はこれまでにステップ(1)(2) に対して以下の特徴を持つ手法を提案しその有効性を確認した.(1)同一文内で 共起する組だけ(従来手法)でなく,文をまたいで共起する固有名詞の組に対して も関係の有無を判定できる.(2)文構造 (従来手法)だけでなく,大規模テキスト 集合から自動獲得した,関係表現リスト,及び,時間経過に伴う関係の変化を手 がかりとして利用し,関係を示す表現を従来より精度良く抽出できる.また本発 表では,ステップ(3)に対する取り組み方針についても報告する.