空間的サブトラクションアレーを用いたハンズフリー音声認識

阪本 浩一 (0251043)


ハンズフリー音声認識では,ユーザとマイクロホンが離れているため室内の壁や物による反射音や背景雑音の影響により認識性能が低下するという問題がある.その対処法として近年,マイクロホンアレー信号処理による雑音抑圧が盛んに研究されている. 従来よく用いられる遅延和アレーでは,単純なアレー構造により目的音声を強調することができるが,十分な性能を出すためにアレー規模を大きくしなければならない問題がある.またGriffith-Jim型適応アレーでは,少数のマイクロホンを用いて効率よく雑音を抑圧可能であるが,目的信号到来方向と実際の到来方向との間に誤差がある場合,推定目的信号に歪みが生じる. 本研究では,Griffith-Jim型適応アレーを拡張した空間的サブトラクションアレーを用いたハンズフリー音声認識を提案する.目的音声の到来方位にブロードな死角を形成することにより,目的音声の推定到来方向の誤差に影響されず,非目的音声のみ受信する指向特性を形成する. 推定目的信号は従来の主パス信号から相関のある雑音を除去するのではなく,メルフィルタバンク上で推定された雑音を主パス信号から減算することにより得られる. さらに,これらの手法で抑圧できなかった雑音を,認識システム側の音響モデルにあらかじめ学習させることで,認識システム全体の性能を改善する. まず予備実験として,無残響環境におけるGriffith-Jim型適応アレーと提案手法の評価を新聞記事のディクテーションタスクで行ったところ,提案手法はクリーンな不特定話者モデルのみを用いる場合と比べ49%の認識率の向上を示した.次いで実環境下における実験結果より,提案手法による音声認識精度は従来の遅延和アレー及びGriffith-Jim型適応アレーに比べそれぞれ約10%,4%向上することが確認された.