バイモーダル音声認識のための音声と顔画像情報の統合モデルに関する研究
熊谷 建一(9951039)
近年,音声認識の性能は大きく改善されたが,未だ,音声の SNR が低い雑
音環境での認識性能には問題が残されている.
雑音環境で頑健な音声認識システムとして,音声情報と唇周辺の動画像情報を用いたバイモーダル音声認識が注目されている.このようなシステムを構築するためには,音声情報と画
像情報の統合する方法が重要な問題となる.
統合においては,(1) 音声を発話する前に発声の準備のために唇が動き,
発話が終わった後に遅れて唇が閉じるといったような,音声と唇周辺の動きのずれに起因する非同期性,(2) 周辺環境に応じたシステムの適応化,といった問題がある.
本論文では,まず,(1) の音声と唇周辺の動きの非同期性を考慮するために, HMM 合成に基づいた統合を行う.
次に,(2) の適応化として,正解の単語と誤りの単語の
分類誤りを最小化するために,
GPD アルゴリズムを用い,
少数の環境適応用のデータ ( 以下適応データ ) から
ストリーム重みを推定することを検討する.
音響的な雑音がある場合について,単語認識実験を行った結果,認識性能が改善
されることが示された.