統計的手法に基づく高品質リアルタイム声質変換
村松敬司 (0751128)
近年の音声合成技術の発達に伴い,様々な声質を合成できる音声合成技術が注目されている.本研究は,声質を変換できる技術の1つとして,言語情報を保持したまま,ある話者の声質を別の声質に変換する声質変換という技術に着目する.近年の統計的手法に基づく声質変換技術の発展により,変換性能は飛躍的に向上したが,未だ満足のいく性能は得られていない.更なる変換性能の向上を実現する最尤変換法が提案されたが,変換時に発話系列の情報を必要とするため,リアルタイムに変換できないという問題がある.本発表では,1)変換アルゴリズムの改良による短遅延変換,2)短遅延変換における系列内変動量フィルタ,3)スペクトル分析における演算量削減,4)共分散行列の対角化による事後確率計算量の削減,以上4つの提案法について述べる.アルゴリズムの問題,及び演算量の問題から声質変換法を見直し,新たな変換法を実現する.各提案法について実験的評価を行い,短遅延かつ高品質な声質変換の実現のために,本提案手法が有効である事を示す.