ユーザ動作雑音を許容する非可聴つぶやき認識のためのブラインド雑音抑圧

石井隼太(1051007)


静粛な環境など発話行為が躊躇される状況においても,音声入力アプリケーショ ンの使用を可能とする技術として,非可聴つぶやき(Non-Audible Murmur: NAM)を用いた音声認識が提案されている.NAMは他人に聴受されないほどの小さ な無声音声であり,体表に直接圧着させるNAMマイクロフォンによって収録され る.そのため,ユーザの動作によっては,NAMマイクロフォンの圧着環境が大き く変動し,収録信号に非定常な雑音が混入することにより,NAM認識性能は著 しく低下する.そこで本論文では,2つのNAMマイクロフォンを用いて ステレオNAM信号を収録し,ブラインド雑音抑圧処理により認識性 能の低下を抑止する手法を提案する.本手法では, ブラインド空間的サブトラクションアレーによりチャンネル毎に雑音抑圧を行った後, 各時間フレームにおいて推定した信号対雑音比がより高いチャンネルを選択する. また,更なる雑音抑圧性能を得るため, ブラインドチャンネル統合に基づくNAM信号強調法を導入する. 大語彙連続音声認識実験の結果から,提案法を用いることで, 単語正解精度において単語誤り改善率が17%(単語誤り率において,47%から39%) が得られることを示す.