実環境下での音声認識アプリケーションを想定した携帯端末付属マイクの性能評価
中 清行 (0951204)
音声認識を用いたカーナビゲーションシステムなど,様々なタイプの音声認識システムが普及してきている.特に,Googleモバイル音声検索や京都観光案内システムAssisTraなどは携帯端末上で動作する音声認識システムである.携帯端末は様々な環境下で利用されるため,信号対雑音比(SNR)も多様になる.一般に,SNRが良くない環境では認識精度,つまり認識した文章のつづりの正確性が下がり,それが応答文の選択過程へ影響する事により応答精度が下がる.よって,認識精度が劣化する環境での運用でも応答正解率を下げないための技術が必要と考えられる.そこで本研究では,そのような背景に対応するための準備として,実環境雑音を用いて,携帯端末で多種のSNRの音声の認識性能がどのように変化するかについて調査を行った.
今回の研究では,iPhoneとiPadを携帯端末として使用した.まず,端末を使って発話する時に,端末と発話者の口との距離や端末の角度をそれぞれ変えた場合,SNRがどのように影響するか調査を行った.端末の発話角度を0°に固定して発話距離を変えた場合については,5cmで22.4dB,30cmで5.5dBと,約17dBの変化があった.一方,発話距離を20cmに固定して発話角度を0°〜約150°に変えた場合は実験したどの角度でも9dB前後でその変化幅は0.7dBであり,端末角度はSNRに大きく作用しない事が確認された.
次に,実環境として駅で携帯端末を使用して発話した場合のSNRについて調査した結果,端末を自由に持って発話した場合10〜15dB,端末を口付近に近づけて発話した場合20dB以上になった. そして,それらのSNRの値を参考に,端末を使って録音した音声に異なるSNRで雑音を重畳し,クリーン音声のみを用いた音響モデルと,雑音を混入した音声の音響モデルを用いて認識性能を行った結果を比較すると,端末の種類によって認識率の変化の具合が異なる事が確認できた.
また、駅で実環境で録音した音声と、同程度の雑音を重畳した音声をそれぞれ認識性能評価実験をした場合に認識率がどうなるかについて紹介する。