深層学習を用いた音声補完

恒松 和輝


近年の技術の進歩により,音声認識は人間に近い非常に高い性能を示している.しかし,話し言葉の認識や,雑音の多い環境下での認識は未だ難しい問題となっている.音声認識の精度を向上させる研究は多くあるが,ここでは精度の向上ではなく,実環境で利用する際の音声認識の体験を向上させる仕組みを考える.

人間同士の対話では,話者がある単語を最後まで思い出せず,その途中に言い淀むことがある.すると対話相手は,話者の言いたいことを推測して候補を提示することで,話者が思い出すのを手助けしてくれる.このように,ユーザーがある単語を一部しか思い出せずに断片だけを言って言い淀むと,システムがその残りを補って入力することを可能にするインターフェース機能に,音声補完がある.この技術は,音声検索時の検索候補の提示や,音声アシスタントへの入力補助に応用することが可能である.例えば,音声アシスタントに「電気をつけて」と指示したい場合,「電気」と発声した時点で,残りの部分をシステムが自動で補完し,電気が点くような仕組みである.

本研究では,深層学習を用いた音声補完の手法を提案する.LJSpeechを用いた単語レベルでの音声補完と,旅行会話基本表現コーパス(BTEC)を用いた文章レベルでの音声補完の2つを行った.それぞれ音声データを末尾から一定量削除したものを用意し,削除した部分に対して補完を行うように学習を行った.評価には単語誤り率と,補完された出力文がどの程度自然であるかを測る主観評価を用いた.文章レベルでの音声補完では,入力をテキストとした実験を行い,Sequence-to-sequence,再帰型ニューラルネットワークを用いた言語モデル(RNNLM),双方向Transformer(BERT)を用いてそれぞれの結果を比較した.どのモデルも入力系列を削除する量が多いほど単語誤り率が高くなり,全体的には参照文とは異なる出力が得られていることが分かった.しかし,入力系列の長さに関わらず参照文と一致している出力もいくつかあった.これらは,比較的短い文章で,補完候補が少ないと思われるものであった.また,Sequence-to-sequenceの出力文は参照文に近い自然さであることが分かり,候補として提示しても利用者に違和感を与えないことが示された.