STRAIGHT分析合成方式を用いた高品質な声質変換

戸田 智基 (9951077)


近年,音声合成技術の発展により,音声合成は身の回りの様々なところで用い られるようになった.それに伴い,合成音声の話者性についても注目されるよ うになっており,より多様な話者性を持つ音声の合成が望まれている.そのた め,話者性を制御する技術として,ある話者が発声した音声をまるで他の話者 が発声した音声に聞こえるように変換する声質変換技術についての研究が行わ れている.

声質変換は主に音声分析合成方式を用いて行われるため,高品質な声質変換シ ステムを実現するためには,声質変換法だけでなく音声分析合成方式の品質も 重要となる.そこで,高品質な音声を合成することができる音声分析合成方式 として,河原らによって提案されたSTRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum)分析 合成方式を用いることを考える.また,精度の良い変換を行うことができる声 質変換法として,Stylianouらによって提案された混合正規分布モデル(GMM: Gaussian Mixture Model)に基づく声質変換法に着目する.

本論文では,まずSTRAIGHTをベースとしてGMMに基づく声質変換システムを構 築し,その有効性を検証する.次に,声質変換システムのさらなる高品質化を 行うために,GMMに基づく声質変換法にスペクトルの周波数軸伸縮とスペクト ルの混合を利用した新たな声質変換法を提案する.評価実験を行った結果,提 案法はGMMに基づく声質変換法と比較して,より良い音質を持ち,かつ同程度 の話者性を持つ変換音声を合成できることが分かった.なお,論文発表当日は 変換音声等のデモンストレーションを行う.