この問題に対する代表的な電気音声強調法として,雑音抑圧に基づくスペクトル補正処理と統計的手法に基づく声質変換がある.前者の手法は,電気音声に混入する雑音を抑圧するため,明瞭性をわずかに改善できるが,機械的な音源信号は変わらないため,自然性は著しく低いままである.一方,後者の手法は,電気音声の音響特徴量を通常音声の音響特徴量へ変換するため,自然性を大幅に改善できるが,複雑な変換処理に起因する変換誤差により明瞭性が劣化する.
本論文では,電気音声本来の明瞭性を損なわずに自然性を大幅に改善できる音声強調法として,雑音抑圧に基づくスペクトル補正処理と統計的声質変換に基づく音源特徴量予測処理を組み合わせたハイブリッドな電気音声強調法を提案する.提案法では,統計的手法に基づくスペクトル及び有声無声情報への変換処理を回避することで,変換誤差により明瞭性が劣化する事態を回避する.また,統計的手法により,通常音声のF0パターンを予測することで,自然性を大幅に改善する.さらに,統計的声質変換に基づく音源特徴量予測精度を改善するため,連続的かつマイクロプロソディ除去後F0パターンのモデル化を提案する.実験的評価結果から,本手法の有効性を示す.