Deep Neural Networkに基づく音声と環境音の同時認識の検討

川西 誠司 (1451040)


音声認識における環境音は,精度低下の原因となるため雑音として除去,抑圧される対象である.しかしながら,音声認識において環境音を同時に認識する事にはいくつかのメリットがある.例えば,音声に含まれている環境音を認識できれば,それに応じてモデルの変更や適応がリアルタイムで可能になり,また環境音から発話者の状況推定も可能になる.このことから,音声認識において環境音を認識することが重要であると考える.

本発表では,雑音環境下での音声と環境音の同時認識と認識精度向上のため,Deep Neural Network (DNN) を用いた認識手法について検討する.

まず,音声認識と環境音認識それぞれのタスクについて,個別に2つのDNNを構築するシングルタスクDNNに対し,2つのタスクを1つのDNNで同時に学習を行うマルチタスクDNNを提案する.さらに,音声認識において有効性示されている,ボトルネック特徴量とi-vectorを組み合わせた手法を提案し,認識精度の改善を図る.

実験では,10種類の環境音重畳音声データを用いた音声認識実験と環境音認識実験により,各提案手法の評価を行った.実験結果から,ボトルネック特徴量とi-vectorをDNNの入力特徴量に用いることで,両タスクにおいて認識精度の改善を確認した.