マイクロホンアレーを用いたハンズフリー音声認識のロボットへの実装

青木 二寛 (9551001)


本研究では、人間とロボットが情報を伝達する手段として、音声を用いたヒューマンマシンインタフェースを実現することを試みる。ロボットの操作環境は実環境であることから、周囲雑音や残響が存在する環境において頑健で、かつハンズフリー受音系を用いた音声認識が実現できなければならない。そこで、本研究では、我々の研究室で提案しているマイクロホンアレーを用いたハンズフリー音声認識法(SLAM法、Speaker Localization by Arrayed Microphone)を適用する。SLAM法の最大の特徴は、発話者方向を自動的に検出する機能を備えていることである。本研究では、このSLAM法をロボットへ実装し、人間とロボットとの音声を用いたヒューマンマシンインタフェースを実現する。

実環境におけるSLAM法の性能を評価するために残響時間が約0.6秒の実験室で認識実験を行なった。音源とマイクロホンの距離が3mのとき56.8%であったのに対して、音源とマイクロホンとの間のインパルス応答を学習用のクリーン音声に畳み込んで学習した音素HMMを用いたところ、80.0%に改善できた。また、人間とスピーカーの放射特性の比較実験を行なった。人間とスピーカーでは、放射特性に違いがあり、人間の場合には指向性が作用することがわかった。

ロボットに実装したハンズフリー音声認識の性能を評価するために、タスクを実現する際に必要となる、ユーザの方向検出と認識の評価実験を行なった。ロボットを操作する環境下ではユーザとロボットとの距離が2m以内であればタスクの実現が可能であるという結果が得られた。