Distant Supervisionにおける階層ラベルグラフを用いた関係抽出

尾﨑 諒介


Web 技術の急速な発展によりビッグデータ時代となった昨今, 大量のテキストから有用な情報を抽出する技術に需要が高まっている. 自然言語処理の分野では, 日本語や英語のような自然言語文で記述されたテキストデータに対して, 計算機 による自然言語の理解や情報抽出等の応用を目指した研究が盛んになっている.

関係抽出とは, 文書から構造化された情報を抽出する情報抽出の分野の一つであり, 現実世界の実体間の関係を表すような文から実体間の意味関係を抽出する処理である. 近年, 関係抽出の分野では, 従来の教師あり学習, 教師なし学習, 半教師あり学習の手法とは異なるDistant Supervisionと呼ばれる, コストをかけずに大量のラベル付きデータを生成して, 学習を行う手法が盛んになっている. Distant Supervisionでは大量のラベル付きデータを生成できる反面, 学習データのサンプル数に偏り出来てしまうことが多くある. したがって, 学習データのサンプル数が極端に少ない関係ラベル(Long Tail Relation)は十分に学習出来ない.

その問題を解決するため, 本論文では, 従来の研究を拡張した新たな階層ラベルグラフを提案し, 従来手法と性能を比較をする. その結果, 従来手法に対して, 関係抽出器の性能を落とさずに, Long Tail Relationに対する性能を一部向上させた.