発話意図を考慮した対話型音声合成における音韻継続時間長予測モデルの検討

佃友介(0851068)


近年,音声合成技術の進歩により, 様々な場面で音声合成の技術が用いられるようになった. 従来の合成音声の多くは朗読調によるものである.しかし, ユーザとの対話を想定した対話システムにおいては, より人間らしい合成音声が望まれている.

これまでに合成音声の自然性向上を目的とした様々な研究が行われている. それらの研究の一つとして, 音韻継続時間長( 以下, 音韻長と呼ぶ )の制御規則化が図られてきた. その結果, 音韻長に影響を及ぼす要因として, 音韻種類による相違, 隣接音韻による時間保障, 呼気段落内モーラ数の増加に伴う音韻長短縮, 呼気段落内位置による影響などが挙げられている. しかし, 実対話においては, 朗読音声とは異なった特徴が見られる.古井は話し言葉の特徴の一つに意図や心的態度などの文字では表現できない 要素(パラ言語情報)を持つという事を指摘している.一方, 従来の音韻長の制御規則化では, これらの特徴が含まれていなかった.

そこで本研究では, 対話コーパスを用いて, 音韻長に着目した分析を行う. 対話音声の韻律特徴の中で最も変化幅の大きい発話速度とパラ言語情報との関係を明確にすることで対話型音声合成の品質の向上を目指す.