包絡と音源情報の補間による音声モーフィングの研究

土屋 誠一郎 (9551068)


ある話者の音声を別の話者の音声へと連続的に変化させる音声モーフィングに関する 研究を行なった。本論文では、ピッチマーキングなどの困難な作業なしに、モーフィング 音声を合成する手法を提案する。

提案する音声モーフィング法の特徴を以下に列挙する。

・声質を特徴付ける特性を、ピッチ成分とスペクトル包絡成分に分ける。 ・ピッチ、包絡成分の両特性の分離はケフレンシー領域で行う。 ・ピッチ成分は音源ケプストラムの伸縮、包絡成分はIFIS(Inverse Function of Integrated Spectrum)でモーフィング処理して声質を変換する。
・振幅スペクトルの二乗近似によるLSSE-STFTMを用いて時間信号の推定を行なう

この音声モーフィング法に基づいて定常5母音と単語を変換し、声質評価を行った。 定常母音を用いた場合の従来法との対比較試験のプリファレンススコアは、91.7 %で、 どの母音についても、本手法による合成音声が良いと判断された。 また単語を用いた場合は、70.2 %であった。