隠れマルコフモデルに基づく音声合成における系列内変動モデリング

是竹 有里 (0951057)


隠れマルコフモデル(hidden Markov model: HMM)に基づく音声合成は, 様々な話者,発話様式,言語へ容易に適用できるなど,柔軟性に優れた音声合成処理を実現できる. 一方で,HMMから生成される音声パラメータは,汎化処理の影響により過剰に平滑化されたものとなるため, 一般的に合成音声の自然性は十分高いとは言えず,さらなる改善が期待される. この問題点を緩和する手法として,系列内変動(global variance: GV)モデリングが提案されている. 生成パラメータのGVは一般的に大きく減少する傾向があるため, 適切なGVを持つパラメータを生成することで,過剰な平滑化を効果的に抑制できる.

本発表では,まず,スペクトルパラメータとGVの関係,および,GVを考慮したパラメータ生成法とモデル学習法に着目し, これらの要因が合成音声の品質に与える影響を調査する.主観評価実験結果から,スペクトルパラメータとして, メル線スペクトル対パラメータよりもメルケプストラムパラメータを用いた方がGVを考慮する効果が大きいことを示す. また,様々な文長に対する合成処理において,GVを考慮したモデル学習法は,GVを考慮したパラメータ生成法と比較し, より安定して合成音声の自然性改善効果が得られることを示す. さらに,GVの統計的性質を調査し,より高精度なGVモデリング技術に関する検討を行う. 実験結果から,GVの確率密度分布は正規分布よりもガンマ分布によるモデル化の方が適しており, また,分布形状は文長に応じて変化する傾向があることを示す.