ディクテーションシステムにおける言語モデルの構築に関する研究

山本 俊一郎 (9751113)


ディクテーションシステムでは統計的言語モデルがよく使われているが、その 構築は英語に比べて困難であり、多くの問題がある。まず、日本語は文章の分 かち書きがなされておらず、単語の概念も曖昧であるため、統計的言語モデル を構築するには、形態素解析を行なわなければならない。したがって、高精度 な統計的言語モデルを構築するためには、形態素解析の精度を上げなければな らない。また、ディクテーションでは、頻度上位数千〜数万に語彙を制限した 統計的言語モデルを使用するため、制限語彙で可能な限り高いカバレージを得 ることが必要となる。しかし、日本語には、漢字・かななどの多様な字種・表 記法があり、カバレージが低下する恐れがある。さらに、漢字には複数の読み があることが多く、読みを正しく付与するのが困難といった問題もある。

本発表では、これらの問題に対処するために行なった単語カバレージ向上のた めの形態素解析結果の後処理や形態素解析システムと読み付与技術の精度の改 善について説明を行なう。また、これらの効果を単語カバレージ・テストセッ トパープレキシティ・音声認識率の点から評価する。