FST型認識デコーダとMCE基準による音響モデル学習法を用いた高性能な音声対話システムの構築

奈木野 豪秀 (0051074)


音声対話システムの実現には,システムが利用者の発声に対して正しく理解し迅速に応答を行うことが重要である. しかしながら,システムを使用する利用者の発声はシステムのタスクや性能に影響を受けるため,十分な音声認識性能が得られていない.よって,更なる音声認識性能の高精度化,高速度化が望まれている.更に,自然な対話には利用者の発声途中でも理解を行う逐次認識理解型のシステムが要求される.

本研究では,音声対話システムの音声認識部に着目し,認識性能の向上を図ることで高性能な音声対話システムの構築を行った. 認識性能向上に向けて,音声認識部にFST型認識デコーダを導入した. FST型認識デコーダは言語モデル,発音辞書,HMM等を予め単一の有限状態トランスデューサ(FST)として表現し,認識時の複雑な処理を単純な仕組みにより実現する高速・高精度の音声認識デコーダであり,かつ,高精度な逐次認識をも可能とするものである. 更に,音響モデル改善のために,システムを介した音声データ収録を行った.個の音声データを利用して,従来のML基準によるモデル学習に加えて,MCE基準によるモデル学習も行った. 実時間での連続音声認識実験では ML基準による学習で3.9\%,MCE基準による学習で更に5.1\%認識精度が向上し, 最終的に,90\%を超える単語正解精度を示した. また,システムが利用者の発声を理解するに必要な重要語の抽出においては,正規文法が受理できる発声内容であれば96\%を超える性能を示し,意味理解においても91\%以上完全に理解する性能を示した.