β-divergence規範による罰則条件付き教師あり非負値行列因子分解を用いた目的楽器音の抽出

八木浩介 (1051118)


 本発表では,複数の楽器音により構成されたモノラル楽曲信号から特定の楽器音信号の抽出を目的とし, 新しい罰則条件付き教師あり非負値行列因子分解(Nonnegative matrix factorization: NMF)を提案する. 近年の情報技術の発展により,楽曲を受聴,提供する手段はネットワークを介して楽曲を提供する 「オンライン型音楽配信システム」が主流となってきている. それに伴い,ネットワーク端末などから楽曲データをダウンロードして楽曲を受聴するだけでなく, 楽曲編集ソフトを用いた既存楽曲の編集活動や,既存楽曲に合わせて所望のパートを自ら演奏し動画投稿サイトに投稿する演奏活動など, 既存楽曲を用いた新たな創作活動が盛んに行われている. しかし,ネットワーク上に存在する楽曲データはすでにミックスダウンされた形で提供されることが多いため, 既存楽曲に含まれる特定の音情報のみを用いて創作活動を行う際に大きな弊害となっている. この問題を解決するため,楽曲信号を対象とした音源分離システムが研究されているが, 特に同じ属に属する楽器群(クラリネットやフルート等)の分離においては, 特定の楽器音を自由に抽出できるとは言い難い.このような背景のもと, 全ての既存楽曲から特定の楽器音のみを抽出する技術が求められている.

 そこで本発表では,観測信号から特定の楽器音を高精度に抽出することを目的とした音源分離技術の提案を行う. 近年,信号処理手法としてNMFという手法が注目されている. この手法は,時間周波数領域における振幅スペクトルで表された観測信号を, 観測信号に含まれる各スペクトルパターンを有限の基底でモデル化した行列と, その基底が現れるタイミングとその大きさをモデル化した行列の積で近似表現する手法であり, 有限の音階要素から構成される音楽音響信号と相性が良いと考えられ, 音源分離の分野でも盛んに利用されている. NMFは先行研究により,モノラル楽曲信号から特定の楽器音信号を分離できることが知られているが, その推定信号の品質が良いとはいえない.

 本問題を解決するため,本発表では,第一に, 事前に抽出対象信号と同じ種類の楽器音を把握し,それを教師情報として利用する教師ありNMFを提案し,推定信号の品質を高める. 加えて,β-divergence規範に基づく一般化された教師ありNMFアルゴリズムを実装した. しかし,この教師ありNMFは各基底間に明確な制約がないため,基底の重複出現が考えられる. このことによって推定信号に欠損が生じ,推定信号の品質が低下する. この問題を解決するため,第二に,各基底ベクトルが直交となるような罰則条件と, 基底ベクトル同士の疑距離が最大となるような罰則条件をそれぞれ教師ありNMF付与し,推定信号のさらなる品質向上を行う. 実際に,教師ありNMFと罰則条件付き教師ありNMFで推定した信号のどちらが高品質な信号かを評価するため, 客観評価実験と主観評価実験を行った. 評価実験の結果,罰則条件付き教師ありNMFで推定した信号の方が 高品質な信号を得ることができた.