コーパスからの日本語従属節係り受け選好情報の抽出

西岡山 滋之 (9551082)


日本語の長文で一文中に従属節が複数個存在する場合、それらの節の間の係り 受け関係を一意に認定することは非常に困難である。

また、このことが日本語 の長文の構文解析する時に最大のボトルネックの一つとなっている。

本論文では、従属節間の係り受け関係の決定の手がかりとして、 各従属節に含まれる形態素上の特徴を利用することを提案する。

特に、係り側・受け側の従属節の形態素上の特徴と、二つの従属節が係り受け関係にあるか いなかの間の因果関係を統計的に分析し、いくつかの形態素上の特徴のもとでは、 従属節の係り受けが高精度に決定できることを示す。

実際に、EDR日本語コーパスから抽出した係り受け情報を用いて、本論文の手法の 有効性を検討した結果についても述べる。