線形回帰に基づく多対一声質変換
林田 千瑛 (0851090)
声質変換とは,ある話者の音声の声質を異なる話者の声質へと変換する技術で
あり,音声コミュニケーションへの応用に向けて近年盛んに研究されている.
統計的手法に基づく声質変換では,あらかじめ入力話者と目標話者の同一発話
を収録し,入力話者の音声から出力話者の音声への変換モデルを学習する.得
られた変換モデルを用いることで,入力話者の任意の発話を変換することが可
能となる.しかし,この技術は入力話者と出力話者による同一発話音声データ
が必要等の制約がある. そこで,より柔軟な声質変換の枠組みとして,任意の
話者の音声を目標話者の音声に変換する多対一声質変換が提案されている.こ
れまでに,不特定入力話者モデルに基づく変換法や固有声に基づく変換法が提
案されており,その高い有効性が確認されている.これらの手法は,数文以下
といった極少量の適応データの使用を主に想定しているが,適応データ量が増
加するにつれ,より複雑なモデル適応処理が可能となり,さらなる性能改善が
得られると予想される.
本論文では,適応データ量の増加に伴い性能が向上する新たな多対一声質変換
の枠組みとして,線形回帰に基づく変換法を提案する.まず,制約付き線形回
帰に基づくモデル適応法及び話者適応学習法を提案し,さらに,適応時の演算
量を低減するために,モデル空間上での最尤線形回帰を導入する.また,適応
データ量に頑健なモデル適応法として,最大事後確率推定を用いたモデル適応
法を提案する.各手法について,客観評価実験及び主観評価実験を行う.その
結果,モデル空間上での最尤線形回帰により,低い演算量で高い性能が得られ
ることを示す.また,話者適応学習法及び最大事後確率推定を導入することで,
大幅な性能改善が得られることを明らかにする.}