発話速度に応じた音韻継続時間長制御手法の検討

山内 覚 (0151114)


テキストなどの言語情報を入力として音声を出力する技術をテキスト音声合成と呼ぶ.近年の音声合成技術の進歩により,さまざまな用途にテキスト音声合成が用いられるようになってきた.

年齢や個人によって聞きやすい発話速度は異なる.また,用途によっても適切な発話速度は異なると考えられる.そのため,テキスト音声合成においても利用者が望む発話速度で音声を合成できることが重要である.

テキスト音声合成における音韻継続時間長の制御では,音声データの中から統計的手法を用いた音韻長制御規則の推測が行われてきた.これらの研究の多くは,発話速度が一定の音声データからの音韻長制御規則の推測およびそのモデル化を行っている.

発話速度による音韻継続時間長の変化は一様ではなく,音韻や品詞の種類といった言語的要因によって異なることが知られている.本論文では,同一の文章を同一の話者が異なる発話速度(速い,普通,遅い)で読み上げた音声を対象として,言語的要因と発話速度が音韻継続時間長に及ぼす影響を分析した.その結果,発話速度による音韻継続時間長の変化は,これまで指摘されていた音韻の種類や品詞の種類の他に,発話区分内のモーラ数や前後の音韻によっても異なることがわかった.そのため,従来音韻継続時間長の制御に用いられてきた線形回帰モデルに言語的要因だけでなく,発話速度および言語的要因と発話速度の相互作用を表す積の項を加えて音韻継続時間長制御モデルを構築した.このモデルは相互作用を表す積の項を加えた積和型の回帰モデルであり,指定された発話速度と音韻の属する言語的要因に応じて音韻継続時間長を制御することができる.また,音韻継続時間長推定実験を行ったところ,発話速度を導入しないモデルに対して同等の精度で推定できることがわかった.よって,本手法により構築したモデルでは,従来モデルと同等の精度を持ち,かつ任意の発話速度を指定することができる.