音声情報案内システムにおけるBag-of-Wordsを用いた無効入力の棄却

真嶋温佳 (1151097)


音声は,人間にとって最も自然なコミュニケーション手段である.近年の音声認識技術の向上によって,音声インタフェースをもつ情報機器が数多く実用化されている. この実用例の1つとして,音声情報案内システムが挙げられる.音声情報案内システムは,音声によってユーザに情報を提供するシステムである.実環境で稼働するシステムにおいては,様々な入力が存在する.雑音,ユーザの笑い声や咳,ユーザ同士の背景会話,意味のない発話など,システムに対して情報提供を求める入力ではないものも多く,システムはこれらの全てに応答を返す必要はない.さらに,これらの入力はシステムの誤作動・誤認識の原因となるので,システムに対する不適当な無効入力として棄却することにより,無効入力に対する応答処理を行わないことが重要である.本研究では,これらの無効入力を識別して棄却し,有効入力のみに応答処理を行うことを目的としている.

従来,入力と無効入力との識別には,メル周波数ケプストラム係数などの音響的特徴量によるGMM (Gaussian Mixture Model)音響尤度が用いられる.しかし,入力データの音声認識結果から得られる言語的な情報を使うことにより,システムのタスクを考えた上で有効入力と無効入力の識別が可能になると考えられる.そこで本研究では,音響特徴量にBag-of-Words (BOW) を言語的特徴量として併用した無効入力の識別を検討した. 識別手法としては,サポートベクターマシン(SVM)および最大エントロピー法(ME)を用いた.実験には実環境音声情報案内システム「たけまるくん」の入力データを用いた.SVM による識別結果では,GMMによる音響尤度のみを用いた場合に比べて,BOWを用いた場合,識別性能の改善が確認された.また,学習データ量を変動させた場合の識別性能についても検討した.さらに,異なるシステム間での可搬性の評価も行ったところ,有効性が確認された.