声質変換法を用いた感情音声合成手法

岩見 洋平 (0151013)


近年,受付案内ロボットや車載情報機器など,ユーザーとの対話を行うシステムが 発達している.ユーザーとの対話を行う上で,単なる情報の伝達だけではなく,システムとユーザーとがより自然なコミュニケーションを行うために,システムが意図や態度,そして感情を表現することが望まれる.

従来,音声における感情の表出は主に声の高さや発話速度,大きさなどの韻律の影響が大きいといわれており,韻律を表す特徴量の分析と,その結果から得られる感情音声合成規則が主として報告されている.しかしながら,それらの研究においても,音声における感情表現には韻律だけではなく声質も重要な要素であると指摘されている.感情音声の声質に注目した研究としては,感情別のデータベースを用いた波形接続による合成手法が提案されている.この手法で自然な合成音声を得るためには,表現したい感情の数だけ大量の感情音声データが必要となるが,一貫した感情表現のなされた感情音声データを大量に収集することと,そのような大量のデータに対する音素セグメンテーションなどのデータ整備を行なうことは困難であると考えられる.そこで本論文では,少量の感情音声データを用いて感情音声の声質を制御する手法として,混合正規分布(Gaussian Mixture Model: GMM)に基づく声質変換法を用いた感情音声合成手法を提案する.提案手法では,ある話者の発声を他の話者の発声に変換する声質変換技術を感情音声間に適用する.提案手法は少量の感情音声を用いて,読み上げ調の平静音声からの声質変換規則を学習し,変換規則を任意の読み上げ調の発話に適用することにより感情音声を合成する.まずはじめに怒り,悲しみ,喜びの感情それぞれについて2種類の程度で発声された感情音声を収録する.次に音響的距離が互いに離れている感情をターゲットとし平静音声からの声質変換を行い,変換音声に対して客観評価実験と主観評価実験を行う.また,主観評価実験の際には平静音声に自然感情音声の韻律あるいは声質を与えた合成音声の聴取実験も行い,各感情表現に対する韻律と声質の影響を調べる.

変換前後の音響的距離を用いた客観評価実験の結果からは提案手法の有効性が確認された.そして,聴取実験による主観評価実験の結果から,提案手法により適切な韻律が与えられた場合において感情の表現力が向上することが分かった. なお,論文発表当日は合成音声のデモンストレーションも行なう.