HMMを用いた入力音声からの自然な発話動画像合成

垣原 清次 (9851023)


近年、音声と同時に顔画像を提示して機械の内部処理状態を直感的に知覚させた り、音声のバイモダリティを利用することにより音声認識を改善するマルチモー ダルインターフェースの研究が盛んに行われている。我々は、 人間と機械の自然なコミュニケーションの実現を目指して、以前から、HMM を用いた入力音声からの音声と同期した唇動画像生成法を提案しており、特に後続 音素の口形状を考慮することによりに唇動画像の自然さを改善した。本発表では、新 たに前後続音素の口形状を考慮した音声からの画像パラメータ生成法及びその画像パラ メータからの発話動画像生成法を提案する。

発話動画像生成には、顔3 次元モデルを使用して元となる顔形状を変形するが、音声と同期 した顔表面データは少数計測点情報しか得られないことから、顔画 像生成のパラメータ(以下、顔パラメータ)決定法と、顔パラメータ からの顔画像生成法が重要な研究課題となる。 本研究では、顔表面3次元計測点に 主成分分析(以下、PCA)を行い、主成分に対応した顔形状を事前に作成しておくことに より、発話顔動画像の自動生成を実現する。その結果、本手法により生成した発話動 画像について、パラメータ生成誤差による評価と主観評価により、入力音声から自然で 滑らかな発話動画像が生成可能であることを示す。

発表の最後に、本手法により合成した発話動画像のデモを行う。