音声翻訳システムにおける一対多固有声変換と言語依存韻律変換に基づく出力声質制御

服部信彦 (0951093)


現在,急激な国際化の進展により,異なる言語間でのコミュニケーションを可能にする音声翻訳システムの研究が盛んに行われている. このシステムでは,音声認識,機械翻訳,テキスト音声合成(Text-to-speech:~TTS)の処理が行われ,翻訳された音声が出力される. しかし,従来の音声翻訳システムでは,出力音声は出力言語に応じた話者のものとなるため,入力話者の声の個人性は失われる. 音声翻訳システムの出力音声を,システム入力話者の声にする手法として, 隠れマルコフモデル(hidden Markov model: HMM)に基づくモデル適応処理が提案されている. これらは,モデルが音韻的な制約を含むため,デコーディング処理が必須であるため,音声認識誤りの影響は避けられない. また,異なる言語のモデル間のマッピングを定義するためには,十分な量のバイリンガルデータが必要となるが,様々な言語対に対して, そのようなデータを収録するのは容易ではない. 本発表では,デコーディング処理やバイリンガルデータを必要とせずに, システム入力話者の個人性を付与した音声を出力可能になるとする音声翻訳システムを提案する. まず,音韻情報を用いずに音響空間全体に対する確率密度をモデル化して変換を行うために, 一対多固有声変換(Eigenvoice conversion: EVC)を音声翻訳システムに導入する. また,出力言語音声の自然性を改善するために,個々の言語が持つ韻律パラメータの大局的な特徴に着目し, 言語依存の確率分布関数を用いた韻律変換法を提案する. 最後に,日本語,中国語,英語をシステム入出力言語とし,全組み合わせに対する実験的評価を行う. 結果,一対多EVCを用いることで話者性を改善することができ,言語依存確率分布関数を用いることで出力言語音声の自然性を改善できることを示す.