非言語情報を考慮した音声翻訳システム

叶 高朋 (1151041)


近年,国際化の進展により,政治・学術・経済の交流が非常に盛んになった.それに従い,異言語間コミュニケーションを必要とする場面は年々増加している.そして,これを支援する技術として音声翻訳システムが注目されるようになった.現在の音声翻訳は音声認識・テキスト翻訳・音声合成の3つのコンポーネントで構成され,それぞれが独立に動作し,テキストベースで情報をやりとりしているため構築が容易となっている.しかし一方では,各コンポーネントでのテキスト以外の情報の共有は非常に希薄である.このため,人の会話において内容を理解するのに非常に重要である,話し方,間の取り方,声の抑揚,表情などの聴覚・視覚から得られる非言語情報が翻訳に反映されない.

そこで,本研究では音声の非言語情報に着目し,言語情報だけでなく音声の非言語情報も同時に翻訳する音声翻訳を提案する.入力音声の非言語情報を翻訳音声上に再現するために,翻訳音声の音声特徴量を適切に制御し,あたかもユーザーが母国語で話しているかのような翻訳音声の生成が最終目標である.本稿では,様々な音声特徴量を扱うという目標の第一歩として継続長とパワーに着目し,入力音声の音声特徴量から翻訳音声の音声特徴量へと連続的に変換する手法を提案する.提案手法では,入力音声に対し,認識用の隠れマルコフモデル(Hidden Markov Model: HMM)\cite{HMM}を用いて音声特徴量を抽出し,線形重回帰モデルとニューラルネットワークにより翻訳音声の合成用HMMの音声特徴量へと変換した.評価においては音声の強調に着目した評価実験を行い,提案し手法が入力音声の強調情報を翻訳音声上に反映可能であることを示す