適応データ量に頑健な高品質多対一声質変換法
谷 大輔 (0651070)
近年の音声合成技術の発展により,様々な場面で音声合成が使用されるようになった.しかしながら,現状の音声合成では,合成音声の多様性という面では未だ不十分である.「多数の話者の音声を合成したい」,「喜怒哀楽を持つ音声を合成したい」といった要望を実現するためには,要望に見合った音声を全て収録する必要があり,膨大な音声コーパスが必要となる.そのため,より柔軟性に富む合成技術が注目されている.
本研究は,音声の話者性を制御する技術の一つとして,ある話者の音声を他の話者の音声へと変換する声質変換に着目する.近年の統計モデルに基づく声質変換法の発展により,変換精度は飛躍的に向上した.しかしながら,変換モデルの学習に同一内容の発声が50文程度必要であり,また,学習した話者対のみでしか変換が行えない.これらの学習時における制約は,声質変換の使用範囲を大きく制限している.
学習時の制約を大幅に緩和する新たな声質変換の枠組みとして,任意の話者の音声から特定の話者の音声への変換を可能とする多対一声質変換が提案されている.多対一声質変換ではこれまでに,不特定入力話者混合正規分布モデルに基づく変換法や固有声に基づく変換法が提案されているが,変換精度や適応データ量への頑健性が十分とは言い難い.
そこで本発表では,新たな多対一声質変換法として,話者選択に基づく変換法および話者正規化学習法を用いた固有声に基づく変換法,最大事後確率(MAP)推定を用いた固有声に基づく変換法を提案する.各変換法について実験的評価を行い,MAP推定を用いた固有声に基づく変換法が適応データ量に対する頑健性が高く,かつ変換精度が高い変換法であることを示す.