系列アラインメントと機械学習を用いた日本語並列構造解析

大熊 秀治 (0751024)


近年,大規模なコーパスの整備が進むとともに統計的機械学習アルゴリズム を用いた構文解析手法が提案されている.これらの手法は人手で整備したルールの による手法を上回る解析性能を達成しているが,いまだに多く の構文解析手法でうまく解消できない問題も残っている.これら問題は自然言語の曖昧性に 起因するもので,その一つに並列構造の曖昧性がある.

英語並列構造の曖昧性解消に機械学習を利用した手法が既に提案されている. 英語並列構造は``and''などの手がかり表現で容易に検出できるため,並列構造 を含むことが既知の文のみを解析対象とした. しかし日本語では,「彼と京都に行く.」の助詞「と」などのように, 並列構造を含まない文でも出現する手がかり表現があるため,並列構造を容易に 検出できず,既存手法を単純に日本語に適用してもうまく解析できない. そこで本研究では,既存手法が解析に用いた編集グラフに「バイパス」と呼ぶ,並列構造 を含まない文を表現するための経路を追加し,並列構造の有無の検出も含めて解析を行う 手法を提案した. また,既存研究では素性の開発が十分に行われて いないため,本研究では日本語並列構造解析に有効な素性を、外部言語知識 に基く素性,文節間の距離に基づく分解方法,大域的な素性の観点で検証した.

本発表では,バイパスや提案する各素性の効果の検証実験の結果,および 既存の構文解析器KNPとの性能を比較した実験結果を発表する.