音声波形加工に基づく非母語音声の継続長補正

倶羅 真也 (1451043)


言語学習等への応用を見据え,非母語話者により発話された音声に対して, 継続長(発話リズム)を補正する技術が研究されている. このような継続長補正技術の代表的な手法として, 母語話者の音声を参照音声として, 音声特徴量系列を変形して音素長を変換することで, 補正音声を合成する枠組みが提案されている. この手法は,発話運動を考慮した柔軟な継続長補正が可能となる一方で, 音声分析合成処理による音質劣化は避けられない.

本報告では,音声分析合成処理による音質劣化を回避する補正法として, 動的時間伸縮と音声波形加工処理による継続長補正法を提案する. 同一発話文の母語音声の継続長に一致するように, 非母語音声波形を時間伸縮規則に従って直接伸縮させることで,継続長補正を行う. 時間伸縮規則を獲得する際には,統計的声質変換を適用することで, 話者性の差異が音声スペクトルパラメータに与える影響を緩和するとともに, 非母語話者音声に見られる音素挿入誤りにも対処する.

さらに,時間伸縮により局所的な音質劣化が生じる箇所を検出し, 時間伸縮規則を調整することで,音質劣化を低減させる. 日本語母語話者による英語音声(日本人英語)を用いた実験的評価から, 提案法により,音質劣化を緩和しつつ, より自然な継続長を持つ英語音声を合成できることを示す. また,時間伸縮により生じる局所的な音質劣化の検出においては, 音声パラメータの変調スペクトルが有効であることを示す. 品質劣化緩和のための時間伸縮規則の調整により, 英語習熟度の低い話者に対して, より自然性と聞き取りやすさを改善できることを主観評価実験結果により示す.