韻律バランスのとれた音声コーパス収録システムの開発

松尾 康孝 (9951100)


波形接続型音声合成において自然な韻律の合成音声を得るには, 韻律バランスのとれた音声コーパスは不可欠である. 従来の音声コーパス作成では, あらかじめ音素や韻律バランスのとれた発話用文セットを用いて発話収録を行なっていた. しかしこの方法では, 発話者が音声収録をする際, あらかじめ予測していた韻律と異なる韻律で発話する場合があり, 収録された音声コーパスにおいて完全に韻律バランスがとれているとは言えなかった.

さて近年のコンピュータの進歩により, 発話収録した韻律を実時間で処理できるようになった. そこで本論文では, まず韻律バランスのとれた発話用文セットを作成した. そしてその発話用文セットを提示し, 発話を収録, リアルタイムに解析してデータベースに蓄え, その情報を元に, 以降の発話文を決定するシステムを開発した.

本システムでは, 次の3つの韻律を考慮している. それはF0,音素持続時間長(以下Dur),音素連鎖間F0傾き(以下F0shift)である. \\ そして各々の韻律要素をF0(High,Middle,Low),Dur(Long,Short),F0shift(Up,Down)にわけ, 12の韻律ブロックを作成した. そして12の韻律ブロックを, 全ての音素連鎖種類においてカバーする.

本システムを用いて発話収録を行なうことにより, 韻律要素を最小限の発話量で無駄なく収録することが可能となった. 実験として男性1名の発話収録を行ない, 23,216音素数の発話を収録し, 12ブロック全ての韻律をカバーすることに成功した.