方位クラスタリングと非負値行列因子分解を用いた音楽信号分離

岩尾悠祐 (1151015)


本発表では,複数の楽器音により構成されたマルチチャネル楽曲信号から特定の楽器音信号の抽出を目的とし, 方位クラスタリングと非負値行列因子分解の 2 つを組み合わせた新たな音楽音源分離手法を 2 種提案する. 近年の情報科学技術の発展に伴い,楽曲を入手する手段はインターネットを通じた電子ファイルが主流になりつつある. そのような背景に伴い,音楽音源分離技術が注目を集めている. 音楽音源分離とは,ある音楽音響信号から特定の目的音を抽出することを言う. この音楽音源分離技術の応用例として,自動採譜技術への活用や, マイナスワントラックや楽器カラオケといった新たな音楽エンタテイメントの創造, また音楽教育に用いることなどが考えられる.

この音楽音源分離における従来研究として,非負値行列因子分解(nonnegative matrix factorization: NMF)がある. 今までに NMF を用いた様々な分離手法が提案されているが,それらには反復解法における悪収束性など多くの問題が存在する. そこで本発表では,これらの問題を克服するため,マルチチャネル信号を分離対象とした新たな音楽音源分離技術を 2 種類提案する. 1つ目の手法は,k-means 法による方位クラスタリング後に NMF を接続することによって信号分離を行うものである. しかし,この手法は,方位クラスタリングによって欠落の多く生じた信号をさらに NMF で分解するため,推定信号が大きく歪んでしまう. そこで,2つ目の手法として,方位クラスタリングと NMF をより効率的に接続し,低歪みでかつ高精度で分離可能である手法を提案する. ここでは,NMF を超解像手法として用い,学習済基底によって信号を再構成する.

提案手法の有効性を示すため,4つの楽器音で構成されるステレオ楽曲信号から目的音の抽出を行い,その評価を行った. 実験の結果,方位クラスタリングと NMF をそれぞれ単独で用いた場合より,提案手法を用いた方がより高精度で分離できることがわかった.