周波数領域ICAと時間領域ICAを統合した多段ICAに基づくブラインド音源分離

西川 剛樹 (0051076)


複数の音源信号が混在して観測された場合,観測信号のみから音源信号を推定する 技術をブラインド音源分離(Blind Source Separation: BSS)と呼ぶ. この技術により,高品質な Hands-free 通信や雑音にロバストな音声認識 の実現が期待される. 近年では,独立成分分析(Independent Component Analysis: ICA)に基づく 音源分離手法が盛んに研究されている.

ICAに基づくBSSは,周波数領域において分離行列を推定する 周波数領域ICA(Frequency-Domain ICA: FDICA) と時間領域において分離フィルタを推定する 時間領域ICA(Time-Domain ICA: TDICA)に分類される. 一般に,TDICAにおいては, 分離フィルタの反復学習における低収束性により, 長い残響時間を有する混合系へ適用することは非常に困難である. また,FDICAにおいても, 帯域分割数を過度に増やすと 狭帯域信号間の独立性の仮定が成立しなくなるという問題により, 長い残響を含む音の分離は困難であることが確認されている.

本論文では,実(残響)環境下における高精度なBSS を実現するために,FDICAとTDICAとを統合した多段ICA (Multistage Independent Component Analysis: MSICA)に 基づくBSS手法を提案する. MSICAにおいては,FDICAによって分離された信号を TDICAの入力とみなし,FDICAにおける残留クロストーク成分を TDICAによって分離することによりTDICAやFDICAが有する問題を解決する. 通常の室内残響環境下での音源分離実験より, MSICAによる音源分離性能はTDICA及びFDICAに比べ, SN比に関してそれぞれ 6.2 dB及び2.7 dB 改善されることが分かった. よって,実(残響)環境下において,MSICAに基づくBSSは TDICA及びFDICAに基づくBSSよりも有効であることが確認された.