コーパスからの格フレーム半自動獲得のための
支援環境の構築

中塚 幸毅 (9651078)


大規模なコーパスから格フレームなどの言語知識の自動的な獲得を行う ことは、自然言語処理のための辞書を構築する上で非常に重要な課題である。

特に、構文解析等においてよく使用される動詞の格フレーム獲得については 非常に多くの研究が発表されている。しかし、現在までのところ、コーパス からの格フレーム辞書獲得を完全に計算機によって自動化することは非常に 困難であると考えられる。

そこで、本論文では、計算機を用いた格フレームの完全な自動抽出を目指すの ではなく、計算機による格フレーム抽出の結果について、人間の手により検証を 行い、計算機が判断できなかった部分や計算機の判断が誤ったものであった場合に、 人間の手により、その誤りを修正するといった、人手による操作を容易に行える ような支援環境の構築を目指すことを考える。

そして、動詞の語義によって分類されている格フレーム獲得の一つの手法と して、大規模コーパスより抽出した動詞・格要素の共起用例のクラスタリングを 計算機により求め、その結果に基づいて動詞の格フレームを人手により抽出する 手法について述べる。

また、計算機による用例のクラスタリング結果を、視覚的に表示し、人手による 検証および修正を行うためのグラフィカル・ユーザ・インターフェイスを製作し、 共起用例のクラスタリングと格フレーム辞書の半自動的獲得のための支援環境の 構築を行う。

そして、本論文で構築した支援環境を用いて、動詞の語義によって分類する 共起用例のクラスタリング及び、格フレームの獲得を実際に行う実験を行い、 本論文で提案した支援環境による格フレーム辞書構築の手法について、その 有効性の検討を行う。