固有声と混合励振源に基づく高品質な一対多声質変換
大谷 大和 (0551027)
近年の音声合成技術の発達により,身の回りの様々な場面において音声合成技術が用いられるようになった.それに伴い,より高音質で多様な話者性を持つ合成音声の実現が望まれている.音声の話者性を制御する技術の一つとして,ある話者の音声の声質を異なる話者の声質へと変える声質変換技術(Voice Conversion: VC)がある.この技術は事前に元話者と目標話者による同一内容の発話を収録し,それらの発話内容の対応づけたパラレルデータを構築する.そしてパラレルデータを用いて変換モデルを学習する.得られた変換モデルに基づいて元話者の様々な発話を所望の目標話者の声質へと変換することができる.近年では,統計モデルに基づいた声質変換法の進歩により,変換精度は飛躍的に向上している.しかし,それでもなお変換音声には合成音声だとわかる,特有のノイズが含まれ,音質は十分とは言い難いものである.また,変換モデルの学習に元話者と目標話者の同一内容発話データの収録が必要となる.また,所望の話者の発話データが収録できないことも考えられるため,これらが大きな制約となり,実用化は困難であるといわざるを得ない.
本発表では,音質の向上のために,従来の混合正規分布モデル (Gaussian Mixture Model: GMM)に基づく声質変換に対し,高品質な音声分析合成系STRAIGHT (Speech Transformation and Representation of weiGHTed spectrum)において用いられる混合励振源を音源モデルとして導入する.次に,学習時の制約を大幅に緩和した声質変換の枠組みとして,固有声に基づく一対多声質変換法~(EigenVoice Conversion: EVC)を提案する.この手法は話者適応技術に基づいた手法で,基準となる固有声に基づいた混合正規分布モデル (EigenVoice GMM: EV-GMM)に対し少量の目標話者の発話データによるパラメータ推定,またはパラメータの手動制御によりモデル適応することで容易に変換モデルを構築できる.さらなるEVCの性能改善手法として話者正規化学習法によるモデルの性能の改善,および音源特徴量および発話内変動を考慮したEVCを適用する.
評価実験の結果,各提案手法により変換性能の大幅な改善が得られたことを示す.