スペクトル補正及び統計的音源予測に基づくハイブリッド電気音声強調法

田中 宏 (1251058)


喉頭摘出者のための代替発声法の一つとして,電気式人工喉頭を用いた発声法がある.外部から機械的に生成される音源信号を用いて発声を行う方法であり,習得が容易で,かつ,比較的明瞭な音声(電気音声)を生成できるという利点がある.一方で,自然な音源信号を機械的に生成するのは困難であり,特に,発話内容に応じた自然な基本周波数(Fundamental frequency; F0)パターンを生成するのは本質的に極めて困難な処理となる.結果として,電気音声の自然性は著しく劣化する.また,電気式人工喉頭から生成される音源信号自体が外部に漏れるため,雑音として電気音声に混入し,その品質を劣化させる.

この問題に対する代表的な電気音声強調法として,雑音抑圧に基づくスペクトル補正処理と統計的手法に基づく声質変換がある.前者の手法は,電気音声に混入する雑音を抑圧するため,明瞭性をわずかに改善できるが,機械的な音源信号は変わらないため,自然性は著しく低いままである.一方,後者の手法は,電気音声の音響特徴量を通常音声の音響特徴量へ変換するため,自然性を大幅に改善できるが,複雑な変換処理に起因する変換誤差により明瞭性が劣化する.

本論文では,電気音声本来の明瞭性を損なわずに自然性を大幅に改善できる音声強調法として,雑音抑圧に基づくスペクトル補正処理と統計的声質変換に基づく音源特徴量予測処理を組み合わせたハイブリッドな電気音声強調法を提案する.提案法では,統計的手法に基づくスペクトル及び有声無声情報への変換処理を回避することで,変換誤差により明瞭性が劣化する事態を回避する.また,統計的手法により,通常音声のF0パターンを予測することで,自然性を大幅に改善する.さらに,統計的声質変換に基づく音源特徴量予測精度を改善するため,連続的かつマイクロプロソディ除去後F0パターンのモデル化を提案する.実験的評価結果から,本手法の有効性を示す.