本発表では,雑音環境下での音声と環境音の同時認識と認識精度向上のため,Deep Neural Network (DNN) を用いた認識手法について検討する.
まず,音声認識と環境音認識それぞれのタスクについて,個別に2つのDNNを構築するシングルタスクDNNに対し,2つのタスクを1つのDNNで同時に学習を行うマルチタスクDNNを提案する.さらに,音声認識において有効性示されている,ボトルネック特徴量とi-vectorを組み合わせた手法を提案し,認識精度の改善を図る.
実験では,10種類の環境音重畳音声データを用いた音声認識実験と環境音認識実験により,各提案手法の評価を行った.実験結果から,ボトルネック特徴量とi-vectorをDNNの入力特徴量に用いることで,両タスクにおいて認識精度の改善を確認した.