実画像を用いたコーパスベース方式発話顔画像合成

大浦 央子 (0251020)


人間が自然かつ円滑に利用できる親しみやすいインタフェースを目指し, 合成音声とそれに同期した発話動画像を提示する発話動画像合成の研究が 行われている. この技術は,機械との自然なコミュニケーション支援としてだけではなく, 唇の動きを忠実に再現した発話動画像を提示することにより, 雑音環境下や聴覚障害者の音声聴取支援としても有益であると考えられる. 本研究では雑音環境下や聴覚障害者の音声聴取支援を目的とし, 発話内容を忠実に再現した自然性の高い発話顔画像合成システムの構築を目指す. 自然性とリアル性を重視して口唇動画像を生成するシステムとして, 実画像を用いたコーパスベース方式発話動画像合成が提案されている. この方式は,口唇画像からの特徴量を用いることで滑らかな口唇動画像生成を 実現するが,現状では顔画像全体の特徴を考慮していないため, 顔画像全体で滑らかな動画像を得ることができない. そこでこのシステムを顔画像全体の自然な合成へ拡張することを検討し, 次の2つの手法を提案する. まず,従来システムで用いられていた口唇画像特徴量に加え, 顔画像特徴量を導入することを提案する. もうひとつのアプローチとして,従来手法により生成した合成動画像の一部を 自然動画像へマスク画像を用いて合成することを提案する. 提案手法により生成された合成顔画像の自然性を評価するために評価実験を 行った結果,前者の手法では口唇画像特徴量のみを用いた場合と同程度の 精度であり,大きな改善は見られなかった.これに対しマスク合成による 顔画像合成手法においては,比較的自然な合成動画像が得られた.