野間 啓介 (0051080)




音声インターフェースを一般の人が広く利用できるようにするためには,雑音に対する頑健性が重要な問題である.例えば雑音の大きい環境ではユーザーの発話を正しく切り出すことさえ難しくなる.また,オフィスやコンサートホールの様な場所では発話すること自体が社会的に迷惑であり,静かに話さざるを得ない.近年,音声認識の基礎技術は発展したが,そのような環境においては実用に至っていない.

本研究では,唇画像と音声を用いた頑健なバイモーダル音声認識を目指し,ささやき声の音声認識,および口形素を用いた唇画像からの音声認識を行なう.またそれらの統合についても考察する

ささやき声は,通常発話の有声音が無声化する変形として考えられ,一般に音声認識では有声,無声の情報を用いていないため,一般的なMLLR法を用いて通常発話でのHMMを適応することによって音声認識が可能であると考えられる.実験の結果,2万語の大語彙連続音声認識で約42\%から約78\%へ単語認識率が向上して有効性が確かめられた.

口形素は読唇のための画像に基づく音素セットである.音声に基づく単位である音素のかわりに唇の画像的特徴に基づく少数の口形素を用いることで,より少ないモデルで唇画像の特性を効率よく表現できると考えられる.43個の音素を23個の口形素に分類したところ,通常の音素セットの場合とほぼ同等の認識精度を得た.さらに口形素ではパラメータが少数に集約されているので前の音素環境を考慮した詳細なC-Vモデルが小規模のデータからも学習できる.構築した口形素のC-Vモデルは,従来のモノフォンモデルと比較して認識率が6\%向上した.

最後に両手法を,音声と画像を入力ストリームとして持つ重み付きHMM合成により統合した.雑音環境での予備実験によって二つの異なったモダリティを統合することの効果を確認した.