照応解析のための文脈的手がかりを考慮した機械学習モデル
飯田龍 (0251010)
センタリング理論のような言語学的な知見を,機械学習を用いた照応解析に統
合する一方法を提案する.従来の照応解析手法は,おおきく規則ベースの手法
と統計的な手法に分類でき,それぞれ独立に研究がなされてきた.規則ベース
の手法では,言語学的知見に基づき人手で規則を記述するが,照応現象を包括
的に捉える規則を書き尽くすことは困難である.一方,機械学習に基づく手法
では,人手では扱うことのできない規則の組合せを考慮できるが,言語学的知
見を有効に活用していない.これら2つの手法をうまく統合することによって,
両者の利点を同時に引き出すことができれば,精度の向上がさらに期待できる.
本論文では2つの手法の統合を目指し,具体的な方法として(i)センタリング理
論に基づく局所的な文脈を考慮した素性(センタリング素性)の導入,および
(ii) 先行詞候補間を比較するモデル(トーナメントモデル)の2点を提案する.
この提案手法を用いて日本語ゼロ代名詞の同定を行い,先行研究の機械学習を
用いた手法より精度よく先行詞の同定ができたことを報告する.また,トーナ
メントモデルを拡張した名詞句照応解析のモデルも提案し,このモデルを用い
た名詞句照応解析の実験結果についても報告する.