ToBI を用いた音声単位選択による音声合成手法

藤井 慶 (9951095)


音声合成の特徴を表す要素には個人性や, 了解性, 自然性などがある. 個人性, 自然性を多く残す方式として 波形接続型音声合成方式がある. この方式では話者の実音声波形をコーパスに収録し, それを合成時に再利用する. 話者本人の音声をそのまま用いるため個人性が保存される. 半面自然な合成を行うためには多くの表現を含むコーパスが必要となる.

従来の波形接続型音声合成方式では入力から韻律を定量的に予測し, それに近い特徴を持つ波形をコーパスから選択し, それらを接続することで合成音を得る.

本研究では定量的な韻律予測を行わず, 代わりに入力時に J-ToBI ラベルを付与して ラベルから直接音声単位を選択することを試みた. J-ToBI とは東京方言朗読音声の韻律記述法として提案されており, ラベルの並びによって韻律を非定量的に表現する. J-ToBI ラベルによって文のアクセント位置や強調などを表現でき, 韻律をより意味的に指定できるようになること, ラベルを拡張することでより多様な表現に対応できることなどが期待される. 半面, 多くの種類のラベルを用いるほどコーパスのカバー率が減少してしまう という問題点を持っている.

本発表ではまず J-ToBI について説明し, 従来の波形接続型音声合成の説明と問題点を指摘し, その解決法である提案手法について説明する. そしてその精度を評価し, まとめと今後の課題を述べる.