Construction of an English Dependency Corpus Incorporating Compound Function Words (複合機能語を考慮 語の依存構造コーパスの構築)

加藤 明彦(1451033)


複単語表現(Multiword Expression, MWE)は「単語境界を越えて特異な解釈を持つ表現」であり, MWEの認識は各種の言語解析で重要である. MWEを考慮した構文解析ではMWEを構文単位として取り扱う必要がある為, MWEの情報(範囲や品詞)がコーパスに統合されている事が望ましい. しかし英語の標準的なコーパスであるPennTreebankでは, MWEについて特別な考慮は払われていない. また, MWEを考慮した依存構造を得る為のナイーブな方法としては, PennTreebankから得た単語ベースの依存構造中の, 各MWE配下のノード群を単一ノードにまとめる方法が考えられる. しかしこの方法は (1) MWEに由来するノードが複数の主辞(Head)を持つ (2) MWEを含む依存構造中に閉路が発生する, という問題を引き起こす事がある. そこで本研究では句構造木中のMWEを単一の部分木としてまとめた上で依存構造に変換するアプローチを採用する事によって上述の問題点を回避し, MWEの中でも機能表現に相当する複合機能語を考慮した依存構造コーパスを構築した. この際, 句構造木中のMWEのパターンを修正容易性の観点で分類し, 自動変換が難しいものに限り人手での修正を行った. また, 上記で構築したコーパスに対する依存構造解析を行い, 定量的, 定性的の両面で解析を行った為, その結果も合わせて報告する.