ディープラーニングに基づく特徴量変換手法を用いた感情音声認識

向原 康平 (1451106)


音声認識では音声信号に影響を与える変動に対応することにより,様々な状況で認識精度改善が行われてきた. その結果,音声認識は活躍の場を広げ,音声入力デバイスとして一般的に用いられるようになった. しかし,実環境で高い音声認識精度を保ったまま使用するには,様々な変動に対応する必要がある.その変動の一つに感情音声が挙げられる. 感情音声はモデルとのミスマッチにより,音声認識精度を低下させる原因となることは知られている. 従来では,モデル適応により,感情ごとに対応することで認識精度低下を防いできた. しかし,感情ごとの対応する場合には,感情の定義や分類が必要になるといったような制約があり,対応が難しくなる. そこで,感情ごとの対応ではなく,特徴量変換手法によって感情音声の特徴量に対応を行い,認識精度向上を図る. 本研究ではボトルネック特徴量変換手法を用いて感情音声認識の精度向上を確認する. 提案法として,Deep Neural Network (DNN)・Convolutional Neural Network (CNN),2種類の異なるボトルネック構造ネットワークからボトルネック特徴量を抽出する. この時,変換されたボトルネック特徴量は,感情音声の揺らぎに左右されない音素の本質的な成分の抽出が期待される. また,認識精度向上のために,特徴量手法との組み合わせや,ボトルネック特徴量同士の組み合わせを行うことで,認識精度のさらなる改善を図った. その結果,それぞれのベースラインに対して,DNNボトルネック特徴量変換では5.8%,CNNボトルネック特徴量変換では3.2%の認識精度向上を確認した. また,特徴量変換手法の組合せ,ボトルネック特徴量の組合せ,それぞれで認識精度の向上を確認した. その中でも,DNN・CNNボトルネック特徴量を組み合わせる,並列ボトルネック計算手法では,組み合わせる前のボトルネック特徴量から9%以上の改善を示し,最も良い結果を示した.