波形接続型 Speech-to-Speech 音声合成のための可変長音声単位による単位選択法

正木 敦之 (0251112)


本論文では, 人と人あるいは人と機械のコミュニケーションを助ける技術として 音声合成技術に着目し, 自然で表現豊かな合成音の実現を目標に, 波形接続型 Speech-to-Speech 音声合成技術を提案する.

音声合成技術は, カーナビやロボットに搭載されていたり, 障害者のコミュニケーション補助の技術として利用されたりしている. 従来の波形接続型合成器は音素ラベル済みの小規模音声データベースを利用し, 読み上げ音声の合成を実現したが, 日常会話など表現豊かな音声の合成には至っていない.

このような音声の合成には日常会話そのものを収録した 大規模な音声データベースが必要であると考えられる. この大規模なデータベースを簡単に扱うため, Speech-to-Speech と呼ばれる技術を提案する. Speech-to-Speech は入力音声に最も近い音声を, ラベル無し大規模音声データベースから音響情報をたよりに再構築する技術である. Speech-to-Speech の入力音声として 従来の合成器(たとえば CHATR)の出力を使うことを想定すると, 出力として, 様々な発話スタイルに表れるような 韻律のバリエーションを含んだ音声を取得し, 後処理として意図や態度など, 所望の発話スタイルに絞ることにより, 最終的にユーザーの望む音声を得ることができると考えられる.

本論文では, この Speech-to-Speech 音声合成技術の評価として 音素ラベルに基づいた評価実験, 大規模自然発話データベースを利用した評価実験を行った. 後者で, Speech-to-Speech の入力として, データベースと同話者の自然発話にしたものと, 上で述べた処理の流れと状況を合わせて CHATR 合成音にしたものについて, 書き起こし正解精度がそれぞれ, 76.7 %, 63.3 % となり, 5 段階評価の了解度調査では 3.95, 3.03 という結果を得, 概ねスペクトルが再現されていることが確認された. また, F0 パターンは 77.5 % で再現されることがわかった.