本報告では,実画像を用いたコーパスベース発話動画像合成法について紹介する. まず,テキスト音声合成(TTS: Text-To-Speech)として主流になりつつある 波形素片接続型音声合成システムを利用した 発話動画像合成システムを構築した(TTVS1: Text-To-Visual-Speech). これは主に出力音声と同期させて収録した画像データを用いて動画像を合成するが, 音声と口形状変化のローカルな非同期が存在するため, 出力合成動画像はフレーム間不連続を多く含んだものであった. 次に,音素持続時間の不適合性, 知覚実験により求めた口形状に基づく音素間の知覚的距離, 隣接フレーム間の不連続による自然性の劣化, これらをコスト関数によりパラメータ化した 画像素片選択による発話動画像合成法を提案した(TTVS2). これらのシステムから得られた出力合成動画像の 連続性と自然性を調査するため,客観評価実験および主観評価実験を行った. TTVS2による出力合成動画像は TTVS1から得られた合成動画像よりもフレーム間の不連続性が低減され, 自然性が高いという結果が得られた. また,これらの提案法から生成された合成発話動画像のデモンストレーションを行う.