日本語インクリメンタル音声合成実現のための検討

柳田 智也(1651115)


同時音声翻訳システムは,話者が発話を終える前に翻訳を行い音声を生成する.その目的は,高品質な翻訳を生成すると同時に,翻訳処理の待ち時間を最小化することである.そのため,同時音声翻訳のための音声合成システムでは,テキストが入力される間に音声を合成する機能が必要である.しかしながら,統計に基づく音声合成は,文からコンテキストと呼ばれる言語特徴を抽出し,高品質の音声を合成するように設計されている.従って,音声合成の合成単位は文で固定されている.一方で,インクリメンタル音声合成は文全体のコンテキストを使用せずに,句や単語のような文より小さい合成単位で音声を合成する.従って,テキストが入力される間に音声を合成可能であり,同時音声翻訳に応用できると考えられる.インクリメンタル音声合成における多くの研究は西欧圏の言語で行われており,単語単位での合成が可能であることが示唆されている.しかしながら,高低アクセント及びモーラ単位である日本語音声合成において,合成音声の品質を保持する為には1単語以上から構築されるアクセント句が重要である.そのため,単語単位の合成は困難という問題がある.更に,後続が未知のコンテキストの有効な組み合わせは不明である.本修論では,日本語インクリメンタル音声合成のため,後続を未知とする場合の有効なコンテキストの組み合わせと合成単位を実験を通して調査する.実験結果より,日本語のインクリメンタル音声合成では,合成単位として,アクセント句が必要であることが分かった.