マルチモーダルシステムにおける実環境ブラインド音源分離の構築に関する研究

大沼 侑司 (1151025)


本研究では,音響情報と画像情報を取得することが可能なマルチモーダルシステムにおいて,独立成分分析(ICA)に基づく音声の音源分離と雑音抑圧の高精度化について検討する. 近年,コンピュータの高性能化や音声認識などのナチュラルユーザーインターフェース (natural user interface: NUI) の普及により,マイクロホンアレー信号処理を用いて高品質な集音を必要とする場面が増えている. NUI を実現するためのデバイスには,マイクロホンアレー等の音響情報を取り扱うセンサだけでなく,画像センサや深度センサが搭載されている物が多い. これらのデバイスを用いることで,人とコンピュータとの間で視覚や聴覚情報を複合的に利用することができるマルチモーダルなシステムが実現可能となる.

本研究では,マルチモーダルシステムでの使用を前提に,特に視覚情報を用いることが可能な場合における音源分離と雑音抑圧性能の高精度化について議論する. マルチモーダルセンサにより,画像情報と音響情報を同時に取り扱うことができる状況において,雑音抑圧と音源分離の従来手法であるブラインド空間的サブトラクションアレー(BSSA)を拡張した画像情報併用型BSSAを提案して音源分離精度の向上を図る.

まず第一に,BSSAはICAに基づく音源分離手法であるため,分離信号における順序の不定性問題(パーミュテーション問題)が生じる. 高精度な音源分離を実現するためには,パーミュテーション問題を正しく解決する必要がある. そこで,実環境下で音源分離問題を取り扱うことを考慮して,拡散性雑音と複数の話者が存在する場合の音源分離を行うパーミュテーション解決について,マルチモーダルセンサを利用した環境下で行うための手法を提案する.

第二に,提案手法を,音声対話ロボットにおけるハンズフリー音声認識インターフェース及びマルチモーダルポスターセッションアーカイブシステムのための音源分離へ応用する. 特に,本研究では,提案手法をリアルタイムシステムへ実装した. 2種類の実システムを用いて実環境における評価実験を行ったところ,提案手法の有効性を確認することができた.