韻律的に多重な音声データベースを活用した合成音声の高品質化

足立 一樹 (0251006)


近年,音声合成技術の発展により,合成音声は様々なアプリケーション・システムにおいて利用されるようになった.従来の音声合成研究では,読み上げ調の音声を高品質に合成することに研究の主眼が置かれていた.しかし人間と機械のより自然なコミュニケーションを実現するためには,対話調を始めとして様々な発話スタイル,態度,感情の表現といった合成音声の多様化が必須である。

本報告では,テキスト音声合成 (TTS: Text-To-Speech) システムを用いて,多様な発話スタイルを表現する音声合成手法の検討を行う. 多様な発話スタイルの音声を生成するためには,自由に周波数特性,韻律を制御する必要があるが,本研究では韻律 (基本周波数 F0,音素持続時間) に着目し,標準的な発声 (以下,normal),F0の高い発声 (high),F0の低い発声 (low),発話速度の速い発声 (fast),発話速度の遅い発声 (slow)を柔軟かつ高品質に生成することを目的とする. 波形素片接続型テキスト音声合成において高品質な合成音声を生成するために,波形接続の後処理として韻律制御を行うことが考えられるが,分析合成手法などを用いて,韻律 (F0,音素持続時間) の変更を行う場合,変更の程度に応じて品質劣化が生じる.そこで,まず韻律的に多重な音声データベースを用いることにより,韻律変更量を削減し,品質劣化を低減する手法の検討を行った.その結果,韻律の変更量削減がF0・音素持続時間の観点から有効に行われ,high,low,slowの合成音声において品質が向上した.また韻律変更時の更なる品質劣化低減を目指し,各韻律傾向 (normal,high,low,fast,slow) における韻律変形の方向と品質劣化との関係を知覚的に評価した.そしてこの知覚評価によって得られた知覚スコアを利用し,韻律変形の方向とその品質劣化を考慮した韻律に関するサブコスト関数を作成した.提案コスト関数の有効性を客観・主観評価実験により検証した結果,normal,low,fast,slowの合成音声において品質が向上した.

尚,論文発表当日は提案法から生成された合成音声のデモンストレーションも行なう.