NAIST-IS-MT9851101: Katsuhiko MATSUSAKA

HMMを用いた入力音声からの自然な発話動画像合成

垣原清次 (9851023)

近年、音声と同時に顔画像を提示して機械の内部処理状態を直感的に知覚させたり、音声のバイモダリティを利用することにより音声認識を改善するマルチモーダルインターフェースの研究が盛んに行われている。我々は、人間と機械の自然なコミュニケーションの実現を目指して、以前から、HMM を用いた入力音声からの音声と同期した唇動画像生成法を提案しており、特に後続音素の口形状を考慮することによりに唇動画像の自然さを改善した。本発表では、新たに前後続音素の口形状を考慮した音声からの画像パラメータ生成法及びその画像パラメータからの発話動画像生成法を提案する。

発話動画像生成には、顔３次元モデルを使用して元となる顔形状を変形するが、音声と同期した顔表面データは少数計測点情報しか得られないことから、顔画像生成のパラメータ(以下、顔パラメータ)決定法と、顔パラメータからの顔画像生成法が重要な研究課題となる。本研究では、顔表面3次元計測点に主成分分析(以下、PCA)を行い、主成分に対応した顔形状を事前に作成しておくことにより、発話顔動画像の自動生成を実現する。その結果、本手法により生成した発話動画像について、パラメータ生成誤差による評価と主観評価により、入力音声から自然で滑らかな発話動画像が生成可能であることを示す。

発表の最後に、本手法により合成した発話動画像のデモを行う。

HMMを用いた入力音声からの自然な発話動画像合成

垣原 清次 (9851023)

垣原清次 (9851023)