実画像を用いたコーパスベース発話動画像合成

白石達也 (0150152)


近年,人間と機械のより自然で円滑なコミュニケーションを目指し, 音声や画像等の複数のメディアを融合した マルチモーダルインタフェーステクノロジーの研究開発が盛んに行われている. 中でも,発話内容を最も的確に表現する顔器官は唇である. リップリーディングが可能な程のリアルで自然な動きの発話動画像が再現されれば, 人対人間と同様に自然なコミュニケーションが人対機械間で可能となり, 強力な音声対話インタフェースとなることが期待される. 更に,音声が聞き取りにくい騒音環境下において, 音声と同時に発話動画像を提示することは音声知覚に大いに役立つ. また聴覚障害者にとっては,発話内容を得る大きな助力となる. このように,発話時の動画像を自動合成する技術は非常に有益であると言える. そこで,音声と画像の2つのメディアを統合したシステム出力の実現に着目する.

本報告では,実画像を用いたコーパスベース発話動画像合成法について紹介する. まず,テキスト音声合成(TTS: Text-To-Speech)として主流になりつつある 波形素片接続型音声合成システムを利用した 発話動画像合成システムを構築した(TTVS1: Text-To-Visual-Speech). これは主に出力音声と同期させて収録した画像データを用いて動画像を合成するが, 音声と口形状変化のローカルな非同期が存在するため, 出力合成動画像はフレーム間不連続を多く含んだものであった. 次に,音素持続時間の不適合性, 知覚実験により求めた口形状に基づく音素間の知覚的距離, 隣接フレーム間の不連続による自然性の劣化, これらをコスト関数によりパラメータ化した 画像素片選択による発話動画像合成法を提案した(TTVS2). これらのシステムから得られた出力合成動画像の 連続性と自然性を調査するため,客観評価実験および主観評価実験を行った. TTVS2による出力合成動画像は TTVS1から得られた合成動画像よりもフレーム間の不連続性が低減され, 自然性が高いという結果が得られた. また,これらの提案法から生成された合成発話動画像のデモンストレーションを行う.