科学技術文献に対する共参照解析に関する研究
岩元文 (1551016)
共参照解析とは,文書の句(メンション)の中で実世界の同じ実体をさすものをクラスタリングするタスクである.
科学技術分野における共参照解析は,同分野でに知識・情報抽出において不可欠である.
しかし,従来の共参照解析モデルはニュースなどの一般的な分野を対象としており,科学技術分野に対応したものは少ない.
今回,科学技術分野に用いることのできる共参照解析器を得るため,ACL anthologyに共参照情報をアノテーションしたコーパスを学習データとして用いた.
しかし,このデータは一般的な分野で広く用いられるCoNLL 2012 shared taskの共参照コーパスとは異なり,品詞・構文解析などの情報は付与されていない.
またフォーマットも異なるため,既存の共参照システムを使って学習・評価を行うことも容易ではない.
これらの問題を解消するため,既存の品詞・構文解析器を用いてCoNLL 2012 shared taskと同じフォーマットへ変換を行った.
また,既存の品詞・構文解析器は一般的な分野を対象に作られているため,科学技術文献に対して解析誤りが多くなる.
アノテーションされているメンションは,修飾詞などをすべて含んだ名詞句である一方,解析誤りが多いため,共参照解析するさいに候補として抽出されるメンションの境界が,アノテーションされたものと一致しないケースが多く発生する.
このため,二つのメンションで,例えhead word部分が一致していても共参照関係が学習・評価されないという欠点がある.
しかし,実際の応用の際は,最大の名詞句の境界は必ずしも必要なく,Head wordを含んだ最小の名詞句(Head NP)で十分である.
このため,アノテーション範囲を修飾詞や関係代名詞節をすべて含んだ名詞句からHead NPへと変更し,既存の共参照解析器を用いて学習と評価を行った結果,より多くのアノテーションされたメンションに一致するメンションを抽出でき,CoNLL scoreによる性能評価も上がった.
これによって,Head NPへアノテーションが修正されたコーパスの方がより多くの名詞句に対して共参照関係にあるかどうかの学習・評価ができていると考えられる.