実環境における頑健な音声認識のための音韻モデルの教師なし話者適応

山出 慎吾 (0151117)


近年,音声認識技術が進歩し,無雑音環境下では高精度な認識性能が達成されている.しかし,実環境において頑健に音声認識を行うためには,話者の個人性や環境雑音を考慮して,音韻モデルを個々の環境や話者に対して適応させる必要がある.特に,環境雑音の変動や話者の交替にも対応できることが望ましい.本研究では,HMM十分統計量に基づく教師なし環境・話者適応法を拡張して,Spectral Subtraction (SS)を用いた環境・話者適応アルゴリズム,さらに既知雑音重畳を併用した教師なし話者適応アルゴリズムを提案する. 本手法では,推定された雑音スペクトルを用いて雑音を抑制するとともに,消し残った雑音に対して既知の雑音を加えることで,環境雑音の種類やSNRの差異を打ち消し、単一モデルで認識を行う.また話者性については,任意の一発声文からデータベースに保持している特徴の近い十分統計量を選択して再学習を行うことにより,教師なしで高速かつ高精度に話者に適応することができる. 認識実験の結果,提案手法は単一のモデルで20 dB SNRの様々な雑音環境下において,適 応により平均85%の認識性能を達成した.これは,各環境に合わせて環境Matchedモデル を個々に作成する場合に比べて2%高い. また現在広く使用されている教師ありMLLR法との比較についても検証した. さらに,話者選択処理の高速化を目指し,クラスタリング手法を用いて十分統計量の削減を行った.認識実験により260クラスのデータを150クラスまで削減できることがわかった.