統計的声質変換に基づく食道音声強調における声質制御

山本 憲三(0951132)


 喉頭摘出者のための代替発声法の一つに,食道発声法がある.食道発声法により生成される食道音声は,健常者の音声と比較すると,音質が低く,また,話者によらず似た声質となり話者性が劣化する.食道音声の品質改善のために,一対多固有声変換に基づく食道音声から健常者音声への変換(Esophageal Speech-to-Speech:ES-to-Speech) が提案されており,その有効性が示されている.この手法では,目標とする音声データに対して,変換音声の声質を自動的に適応させることができる.一方で,目標とする音声データが手に入らない際に,所望の声質を実現させるのは容易ではない.
 本発表では,利用者による直感的な声質手動制御を実現するために,ES-to-Speech に対し,重回帰混合正規分布モデル(Multiple Regression Gaussian Mixture Model: MR-GMM) に基づく声質変換・制御法を導入する.また,声質制御性能を向上させるために,MR-GMM の学習に用いる声質表現語ス コアの付与方法について検討し,さらに,カーネル回帰分析を用いた声質制御法を提案する.実験的評価の結果から,提案手法により声質制御性能の改善が得られることを示す.