品詞タグ付きコーパス作成支援環境の構築

松田 寛 (9851103)


品詞タグ付きコーパスは統計に基づく言語処理手法にとって重要な情報資源である.近年,新聞などの活字媒体のテキストで構成された大規模日本語品詞タグ付きコーパスが整備され,統計モデルに基づく形態素解析システムの学習対象として既に十分な量と品質が得られている.今後は,音声発話系の転記テキストを中心とするコーパスの整備が進むと考えられる.

音声発話テキストでは話者や設定タスクにより語彙や品詞に偏りが生じやすい.そのようなテキストで構成されたコーパスの言語モデルは局所性が強く,その獲得には強いフィードバックが必要と言える.具体的には,作業補助用の形態素解析システムに対する作業結果の追加学習が必要である.本研究では,委員会方式による選択学習の手法を応用し,複数の解析システム間での不一致度によるテキストの並べ替えを行い,精度向上効果の高い用例から学習を行う実験を行った.また,不一致度による並べ替えと,追加学習時の重み付けの最適化を併用することで,少ない用例でも高い精度が得られることを確認した.

一般に,統計モデルに基づく形態素解析システムでは,学習対象のコーパスで不足している用例を補填することで精度が向上する.しかし,そのような用例を多く含む品詞タグ付きコーパスが既に存在する場合でも,品詞体系が異なる場合は品詞情報をそのまま利用することはできない.本研究では,助詞に関する変換規則と形態素解析システムを用いた品詞体系変換手法について実験を行った.