本研究では,音声対話システムの音声認識部に着目し,認識性能の向上を図ることで高性能な音声対話システムの構築を行った. 認識性能向上に向けて,音声認識部にFST型認識デコーダを導入した. FST型認識デコーダは言語モデル,発音辞書,HMM等を予め単一の有限状態トランスデューサ(FST)として表現し,認識時の複雑な処理を単純な仕組みにより実現する高速・高精度の音声認識デコーダであり,かつ,高精度な逐次認識をも可能とするものである. 更に,音響モデル改善のために,システムを介した音声データ収録を行った.個の音声データを利用して,従来のML基準によるモデル学習に加えて,MCE基準によるモデル学習も行った. 実時間での連続音声認識実験では ML基準による学習で3.9\%,MCE基準による学習で更に5.1\%認識精度が向上し, 最終的に,90\%を超える単語正解精度を示した. また,システムが利用者の発声を理解するに必要な重要語の抽出においては,正規文法が受理できる発声内容であれば96\%を超える性能を示し,意味理解においても91\%以上完全に理解する性能を示した.