機械学習を用いた日本語ゼロ代名詞の照応関係の同定

吉野圭一 (9951128)


本発表では日本語テキスト中に出現するゼロ代名詞の照応関係の同定に、機械学習を用いる手法を提案する。 ゼロ代名詞の照応関係の解析は、機械翻訳や情報検索といった高度な自然言語処理を行う上で非常に有益かつ重要である。 これまで照応関係の解析には、人手により解析規則を作成する手法が多く用いられてきた。 本手法では新聞記事を対象に、文脈や言語的な情報を用いて照応関係の解析規則を機械学習によって獲得する。

学習アルゴリズムにはSupport Vector Machine(SVM)を用いた。 SVMは二値分類を行う教師付き学習モデルで、高い汎化能力を持ち、多量の素性を扱っても過学習を起こしにくいという優れた特性をもっている。

少量の学習コーパスをSVMを用いて実験を行った結果、文脈照応が必要なゼロ代名詞の先行詞を67.5%の精度で上位3位までに選択することができた。 今後学習コーパスの量を増やすことによって、より一層の解析精度の向上が期待できる。 また、異なる素性を用いた実験を行うことによって、ゼロ代名詞と先行詞の位置関係や先行詞候補の格などの素性が適切な先行詞を選択するために有効であることが示せた。