NAIST-IS-MT9951077: Tomoki Toda

STRAIGHT分析合成方式を用いた高品質な声質変換

戸田智基 (9951077)

近年，音声合成技術の発展により，音声合成は身の回りの様々なところで用いられるようになった．それに伴い，合成音声の話者性についても注目されるようになっており，より多様な話者性を持つ音声の合成が望まれている．そのため，話者性を制御する技術として，ある話者が発声した音声をまるで他の話者が発声した音声に聞こえるように変換する声質変換技術についての研究が行われている．

声質変換は主に音声分析合成方式を用いて行われるため，高品質な声質変換システムを実現するためには，声質変換法だけでなく音声分析合成方式の品質も重要となる．そこで，高品質な音声を合成することができる音声分析合成方式として，河原らによって提案されたSTRAIGHT（Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum）分析合成方式を用いることを考える．また，精度の良い変換を行うことができる声質変換法として，Stylianouらによって提案された混合正規分布モデル（GMM: Gaussian Mixture Model）に基づく声質変換法に着目する．

本論文では，まずSTRAIGHTをベースとしてGMMに基づく声質変換システムを構築し，その有効性を検証する．次に，声質変換システムのさらなる高品質化を行うために，GMMに基づく声質変換法にスペクトルの周波数軸伸縮とスペクトルの混合を利用した新たな声質変換法を提案する．評価実験を行った結果，提案法はGMMに基づく声質変換法と比較して，より良い音質を持ち，かつ同程度の話者性を持つ変換音声を合成できることが分かった．なお，論文発表当日は変換音声等のデモンストレーションを行う．

STRAIGHT分析合成方式を用いた高品質な声質変換

戸田 智基 (9951077)

戸田智基 (9951077)