音声認識における唇動画像情報の統合のための重みの推定法

伊藤 秀俊 (9851010)


音声認識における研究課題の1つとして、背景雑音などによる認識率の低下に対処 することが挙げられる。その1つの改善策として、音声情報に加えて、画像情報、 特に音声と同期した情報である唇動画像を用いる方法が試みられてきた。 画像情報を用いることは、音声の雑音による影響を受けない為、特に音声の 低SNR時における認識精度の劣化の際に有効となる。 本研究では音声認識に用いるモデルとして、発話ごとの揺らぎや、個人性を吸収できる 隠れマルコフモデル(HMM)を用いる。 HMMに基づく音声認識においては、1つのHMMで状態毎に音声と画像の出力確率を結合 する統合法である初期統合による方法が知られている。さらに初期統合による方法 では、音声・画像各ストリームの出力確率にかかる重みを適切な値に推定すること により認識率の改善を図ることが可能である。 この適切な重みを推定する方法として、最尤推定法やGPDなどの従来法があるが、 これらの方法は推定に用いる適応データを多数必要とするという問題がある。 このことは、実装レベルにおいてユーザに多大な負担をかける上に、計算量も膨大となる。

本論文では、この問題に対処する為、少数の適応データによる重み推定法 を提案し、提案法によるストリーム重みの推定実験、さらに推定した重み による認識実験を行う。 音声の特徴量にはメルケプストラム係数とそのデルタ成分(フレーム間の差分)を合わ せて1ストリームとしたものを用い、唇画像の特徴量には2次元FFTの対数パワー スペクトルとそのデルタ成分を合わせたものを採用する。これら2ストリームの 特徴量による重み推定実験、推定した重みによる認識実験を行った結果から、音声 のみでの認識率と比較して音声のSNRが 10 dBの場合 56.2 \%、0 dB 55.2 \%、20 dB 15.2 \% 認識精度が改善された。 また、どのSNRの状況においても画像のみの認識率を下回ることはなく、従来法では 重み推定の為に数百、数千単語程度の適応データを必要としたが、本手法の提案により、 わずか15単語の適応データによる効果的なストリーム重み推定法が実現された。