バイノーラル音源分離における時系列事前分布モデルとスペクトル基底の同時適応

室田勇騎 (1351108)


本論文では,バイノーラル信号を対象として,分離音源の音像定位を保持し, 未知の頭部伝達関数 (HRTF) による信号の変形に対しても頑健かつ高精度に分離 が可能な音源分離手法を提案する.近年,音楽メディアは電子ファイルとして供 給されインターネットを通じて配信される機会が増加している.そのため,ユー ザが既存の音楽メディアを自由に編集するなどの能動的な創作活動が盛んになっ ている.このような背景から,音楽信号を対象とした信号分離手法が広く注目を 集めており世界中で盛んに研究されている.この音楽信号分離技術は,複数の楽 器が混合された音楽信号の中から特定の楽器音を分離・抽出することを目的とし ており,オーディオリミックス,自動採譜,3D オーディオシステムへの利用と いった様々な応用先が考えられる.

これまでの研究において,教師あり非負値行列因子分解 (SNMF) や平均二乗誤 差最小化短時間振幅スペクトル (MMSE-STSA) 推定法に基づく音源分離手法が提 案されている.しかしながら,いずれの手法においても多くの問題があり,頑健 かつ高精度に目的音信号を分離する手法は未だ提案されていない.そこで本研究 では,未知の HRTF による信号の変形に対しても高精度に分離を行うことを目的 として,時系列事前分布モデルとスペクトル基底の同時適応を行う定位保持型バ イノーラル音源分離手法を新たに提案する.本手法の実現にあたり,まず,高次 統計量解析に基づき,一般化 MMSE-STSA 推定法における最適な目的音事前分 布パラメータ推定法について述べる.この手法により観測音信号中の目的音信号 にとって最適な時系列事前分布パラメータを推定することが可能となる.次に, 上記の知見をバイノーラル信号へと拡張し,最適両耳共通スペクトルゲインを用 いた定位保持型バイノーラル音源分離手法を提案する.これにより,HRTF など の両耳情報を利用することなく,目的音信号の音像定位を保持した高品質な分離 を行うことが可能となる.最後に,SNMF における教師基底を中間的な音源分離 音 (MMSE-STSA 推定器出力) に適応させることにより,時系列事前分布モデル とスペクトル基底を反復的に同時適応する手法を提案する.その後,性能評価実 験を行うことにより,提案手法の有効性を確認した.