Distant Supervisionにおける関係抽出のためのノイズ削減法

須藤 広大(1551055)


関係抽出とは, 文書から構造化された情報を抽出する情報抽出の分野の一つであり, 現実世界の実体間の関係を表すような文から実体間の意味関係を抽出する処理である. 近年, 関係抽出の分野では, 従来の教師あり学習, 教師なし学習, 半教師あり学習の手法とは 異なるDistant Supervisionと呼ばれる, コストをかけずに大量のラベル付きデータを生成して, 学習を行う手法が盛んになっている. しかし, Distant Supervisionは知識ベースを教師として, ヒューリスティックにラベルを文に付与して疑似ラベルデータを生成するため, 間違ったラベルを文に付与したノイズデータを学習してしまう恐れがある.

本研究では, ノイズデータがもたらす問題点の分析, 複数のノイズ削減法による比較検証, ノイズ削減法を用いた関係抽出器の性能向上の検証 の三点を行う. 本研究ではRiedelらのデータセットを用いた実験により, 我々の提案するノイズ削減法が有用であり, 従来の関係抽出器と比較して優れた性能を持つことを示す.