韻律的に多様な音声合成手法に関する研究

舛田 剛志 (0051099)


近年,音声合成技術の進歩により,多くの人が音声合成のアプリケーションを利 用できるようになった.しかしながら,従来の合成音声は読み上げ調によるもの が大半である.より人間らしい合成音声を生成するには,感情や態度の表現といっ た合成音声の多様性が必須である.これらは読み上げ調の音声に比べて,韻律的 (基本周波数 {\it F}$_{0}$・音素持続時間・パワー)にも音韻的(周波数スペ クトル)にも幅広い表現を持つ.しかし,高品質な幅広い表現の音声を合成する 手法は未だに確立されてはいない.

そこで本論文では,まず波形素片接続型音声合成システムCHATRの高品質化を図 り,さらに韻律が多様で高品質な音声合成手法の検討を行う.前述のような高次 情報の伝達には,高品質な音声を任意の韻律で生成する技術は必須である.しか し,波形素片接続方式では,PSOLA法や分析合成手法を用いて{\it F}$_{0}$・音 素持続時間の変更を行う場合,変更の程度に応じて品質劣化が生じる.そこでま ず,基本的に韻律の変更を行わないCHATRの出力音声を,予測された韻律に一致 させる操作を行うが,そこで使用する韻律制御手法を聴取実験によって決定する. それによりCHATRの高品質化を図ると共に,韻律制御の重要性を検証する.さら に,韻律の変更に伴う品質劣化を低減するために, 韻律的に多様な音声データベー ス作成手法を提案する.本論文では,韻律の異なる9種類の音声データベースを 収録した.特に発話速度の異なる3種類(速い・普通・遅い)のデータベースに ついて統計的特徴分析を行い,さらに収録した音声データベースの合成器への組 み込みを行って,韻律的に多様な合成音声を生成する.

聴取実験を行った結果,提案法は従来法(標準的な発話速度のデータベース)と 比較して,より高品質な音声が合成できることが分かった.なお,論文発表当日は 変換音声等のデモンストレーションを行う.