中国語合成語解析

呂嘉 (0651151)


近年、コンピューターの性能向上とインターネットの普及に伴い、自然言語処理は大規模なデータに基づく統計的な言語処理の時代に入った。 中国語に対する自然言語処理の研究も活発になっている。 中国語は、英語のような言語と違って、文中に分かち書きがない。 単語の分かち書きと単語自身の品詞情報を知らないと、情報抽出、機械翻訳などの言語応用システムの基本情報がないので、中国語に対する言語処理の第一歩は形態素解析と単語の品詞付与である。

今まで、多数の大学及び研究機構が、中国語の形態素解析について深く研究し、日本でも有名な「茶筌」も含め、いくつかの中国語形態素解析システムを作られ、実用化されてきた。 各中国語形態素解析システムがさまざまな特徴を持ち、現在の中国語文書に対して、基本的な分かち書きと品詞の精度が向上しているが、実際にまだ問題点があると考えている。 日々新しく作られる自然言語処理のアプリケーションの要求に応じて、中国語形態素解析システムが様々なレベルの出力を実現しなければならないので、 このような解析に必要な情報、特に中国語の合成語構成とその内部情報の解析関する研究はほとんど行われていないというのは非常に重要な問題だと考えてられる。

中国語は単語の生産性がとても高い言語なので、単語自身の内部構造、特に中国語合成語の内部構造を考えないと、形態素解析の過程には未知語の出現頻度が高くなり、解析結果の応用面も狭くなる。 故に、さまざまな言語応用システムに対して、合成語の内部構造を考慮した柔軟な階層構造を出力できる形態素解析はこれからの中国語自然言語処理研究方向の一つであると考えている。

本研究は最初に中国語の単語、特に中国語合成語の概念を定義し、合成語の内部文法関係もしくは形態素構造関係によって、合成語を複合語と派生語に分類する。 そして、「茶筌」形態素解析器用辞書管理システム「Cradle」を開発し、システム辞書中の単語、特に合成語の編集管理機能を実現する。 更に、中国語合成語の各種類の特徴に基づき、中国版茶筌のシステム辞書を用い、合成語を複合語と派生語に自動分類する方法を実験比較する。 分類した合成語の内部情報を利用し、辞書管理システムを使い、現在の形態素解析器の辞書を合成語の情報含めるように改善する。 これらの情報が将来の形態素解析と未知語認識に非常に役に立つと考えている。