公共音声対話システムのタスク拡張のためのN-gramとGrammarの併用

北村 任宏 (0451046)


音声認識, 音声対話システムを実環境で利用する場合, ユーザに対し適切なタスクドメインを設定することが重要である. システムをより普及させるためには簡易に所望のタスクへと適用する, もしくは拡張する技術が必須である. 既存の音声対話システムに新たなタスクを追加する際, 言語モデルの学習や発話に対するドメインの判別, 対話戦略の構築が必要となる. また, 統計的言語モデルの作成には新たに大量のコーパスを必要とし, 製作のために多大な時間を要する.

本研究では, 統計的言語モデルに基づく既存の音声対話システムにおいて, ネットワーク文法を併用することで簡易にタスクを拡張し, 発話に対して高精度にドメインの判別, 音声認識を行なう手法を提案する. 既存の統計的言語モデルで広く全般的なドメインを認識させ, 狭く専門的なドメインをネットワーク文法で認識させることで, 簡易にタスク拡張を行なう.

実験より, タスクに沿った少量のデータを参考にすることで, 適切なネットワーク文法を作成できた. ユーザの発話に対するドメイン判別率, 単語正解率もそれぞれ90%以上の値を示し, 高精度に判別, 認識が行なえることが分かった. また, 対話システムの応答正解率もタスク拡張の前後で高い精度を確認した.