Your_MS_Thesis_Or_Report_No.NAIST-IS-MT0851090: Chie Hayashida

線形回帰に基づく多対一声質変換

林田　千瑛 (0851090)

声質変換とは，ある話者の音声の声質を異なる話者の声質へと変換する技術であり，音声コミュニケーションへの応用に向けて近年盛んに研究されている．統計的手法に基づく声質変換では，あらかじめ入力話者と目標話者の同一発話を収録し，入力話者の音声から出力話者の音声への変換モデルを学習する．得られた変換モデルを用いることで，入力話者の任意の発話を変換することが可能となる．しかし，この技術は入力話者と出力話者による同一発話音声データが必要等の制約がある. そこで，より柔軟な声質変換の枠組みとして，任意の話者の音声を目標話者の音声に変換する多対一声質変換が提案されている．これまでに，不特定入力話者モデルに基づく変換法や固有声に基づく変換法が提案されており，その高い有効性が確認されている．これらの手法は，数文以下といった極少量の適応データの使用を主に想定しているが，適応データ量が増加するにつれ，より複雑なモデル適応処理が可能となり，さらなる性能改善が得られると予想される．

本論文では，適応データ量の増加に伴い性能が向上する新たな多対一声質変換の枠組みとして，線形回帰に基づく変換法を提案する．まず，制約付き線形回帰に基づくモデル適応法及び話者適応学習法を提案し，さらに，適応時の演算量を低減するために，モデル空間上での最尤線形回帰を導入する．また，適応データ量に頑健なモデル適応法として，最大事後確率推定を用いたモデル適応法を提案する．各手法について，客観評価実験及び主観評価実験を行う．その結果，モデル空間上での最尤線形回帰により，低い演算量で高い性能が得られることを示す．また，話者適応学習法及び最大事後確率推定を導入することで，大幅な性能改善が得られることを明らかにする．}

線形回帰に基づく多対一声質変換

林田 千瑛 (0851090)

林田　千瑛 (0851090)