音声合成を用いた創作活動の活発化により, 目標とする特定話者の音声の合成処理において, ユーザの思い通りの音声を合成できる インターフェースの開発が望まれている.
これに対して本論文では, 高品質かつ表現力豊かな音声合成の実現を目指して, HMM 音声合成において, 通常のテキスト音声合成 機能を保持しつつ, ユーザによる入力音声を用いて目標話者の合成音声の韻律を制御する手法を提案する.
入力音声に対して, HMM 状態アライメントを行うことで, 入力音声の継続長を抽出し, それを目標話者用 HMM に反映させることで, 入力音声の継続長に対応した目標話者の合成音声を生成する. さらに, 入力音声の F0 パターンを合成音声に反映させることで, 入力音声の F0 パターンおよび継続長に対応した目標話者の合成音声を実現する. 入力音声と合成音声間における韻律パラメータの不一致による自然性劣化を抑えるために, 反映させる継続長の単位に関する検討, モデル適応処理を用いたアライメント用 HMM の構築に関する検討, および, 有声 / 無声情報に対応する補正処理に関する検討を行う. 複数の入力話者を対象とした実験的評価結果から, 提案法の有効性を示す.