波形接続型音声合成方式における感情発話様式の制御

丸本 徹 (9851107)


合成音声の表現力向上を考えたとき,多様な発話様式を制御することは重要な課題である。我々が日常よく用いている感情を任意合成するためには、自然波形を選択・接続する波形接続型音声合成システムを用いて、音素単位での特徴を記述する手法が考えられる。 本発表では従来の韻律情報に加え、声質に基づく音源特徴パラメータが感情識別に有効であることを示す。

まず、スペクトルから算出した音源特徴量によって感情を見分けることができるか分析し、その結果、有意な差がみられたことを示す。 次にそれらのパラメータを基に、音素単位での感情ラベルを自動的に付与する方法を提案する。 提案手法では、数理統計手法であるHMMを用いることで各感情ごとに学習させ、尤度を比較することにより感情を決定する。

提案手法により、感情DBの再分類を行い、そのDBを基にした、合成の主観評価実験から提案手法の有効性を検討する。比較として予測韻律情報を制御した感情音声も合成する。その結果「怒り」と「悲しみ」に関しては音源特徴量でも韻律特徴と同様、ある程度識別できることが明らかになった。実験から幾つかの識別誤りを発見し、ラベリング法を再検討する。 最後に合成音によるデモを行う。