高品質な会話合成音声を得るためには、朗読音声では目立たなかった、 会話音声の特徴に十分注意する必要がある。 会話音声においては、例えば「発音のなまけ」といった、 朗読調の「かたい」発話とは違う、必ずしも明瞭ではないが流暢な発音が見られる。 また発話速度やF0についても、 既存の朗読用韻律予測方式では予測困難な、複雑な動きが見られる。 従来の波形接続型音声合成システムにおいて、 これらの予測困難な特徴を用いて単位選択する場合、 現状では合成目標値を正確に与えることができず、十分な品質は得られない。
そこで本研究では、合成内容に応じて異なる長さの音声単位を用いることで、 信頼性の低い韻律予測の下でも、十分な品質が得られる単位選択を目指す。 「ああ」等の主にパラ言語情報を担う会話表現に、 予測困難な特徴が集中していること、および、 その会話表現が高い頻度で現れることに着目し、 会話音声合成に適した音声単位を提案した。 具体的には、音声データベース構築時に音韻のmultigramを使って 頻出する音韻系列を抽出し、これを音声単位とする。 主にパラ言語情報を担うような会話表現が、 multigramを使って切り出された音声単位に内包され、 音声合成において原音声が持つ自然な韻律をそのまま活かせると期待できる。
自然発話音声データベースを用い、提案する音声単位によって音声を合成し、 従来の音素による合成音との対比聴取実験を行なった。 被験者全員が提案法をより高く評価し、 multigramによって抽出した音声単位が、会話音声合成に適するとの結論を得た。
発表では、論文で直接示すことができなかった合成音声のデモも併せて行う。