本研究では,マルチモーダルシステムでの使用を前提に,特に視覚情報を用いることが可能な場合における音源分離と雑音抑圧性能の高精度化について議論する. マルチモーダルセンサにより,画像情報と音響情報を同時に取り扱うことができる状況において,雑音抑圧と音源分離の従来手法であるブラインド空間的サブトラクションアレー(BSSA)を拡張した画像情報併用型BSSAを提案して音源分離精度の向上を図る.
まず第一に,BSSAはICAに基づく音源分離手法であるため,分離信号における順序の不定性問題(パーミュテーション問題)が生じる. 高精度な音源分離を実現するためには,パーミュテーション問題を正しく解決する必要がある. そこで,実環境下で音源分離問題を取り扱うことを考慮して,拡散性雑音と複数の話者が存在する場合の音源分離を行うパーミュテーション解決について,マルチモーダルセンサを利用した環境下で行うための手法を提案する.
第二に,提案手法を,音声対話ロボットにおけるハンズフリー音声認識インターフェース及びマルチモーダルポスターセッションアーカイブシステムのための音源分離へ応用する. 特に,本研究では,提案手法をリアルタイムシステムへ実装した. 2種類の実システムを用いて実環境における評価実験を行ったところ,提案手法の有効性を確認することができた.