尤度基準によるGMMを用いた声質変換法

花園 正也 (0251093>
人と機械のインタフェースとして音声合成技術が用いられるが,身近にある音声合成の多くは言語情報のみを伝達している.そこで言語情報のみならず,非言語情報を含んだ多様な音声合成が望まれ,その一つとして話者性を持った音声合成が考えられる.音声合成において話者情報を持たせることは人と機械の間でより自然で親しみやすいインタフェ ースの実現に繋がると期待される.その目的で声質変換技術の研究がされている. これはある話者が発声した音声をあたかも他の話者が発声したかのように変換する技術である.この声質変換を行う手法の一つに混合正規分布(Gaussian Mixture Model: GMM)に基づく声質変換法が挙げられる.この手法は従来のコードマッピングによる声質変換法よりも音質が良いとされる. しかしその品質は音質や話者変換精度の観点から言っても未だ十分なものではない.そこで,GMMの声質変換法において,尤度基準の非線形時間伸縮(Dynamic Time Warping: DTW)を導入し反復学習する手法を提案する.これにより,EM(Expectation Maximization)アルゴリズムの理論に基づき尤度最大化を行い,学習精度を向上させることが可能である.本発表では, この手法を用いて評価実験を行った結果を報告をする.