オーディオオブジェクト定位情報に基づく楽曲サムネイル自動生成

縄田寛之 (0951089)


本発表では,ステレオ楽曲信号から楽曲の主要部分により構成されたサムネイル音源を自動生成することを目的とし, 楽曲の主要構成を自動で推定する手法の提案を行う.近年,楽曲を提供するための手段はCDやDVDなどの電子媒体から, ネットワークを介した楽曲ファイルなどの電子データへの移行が進み,時間や場所を問わず手軽に楽曲を入手可能な環境が整いつつある. 反面,膨大な数の楽曲から所望の楽曲を見つける煩雑さが伴うため,所望の楽曲を容易に検索可能なシステムの実現が望まれている. このようなシステムの一つとして,楽曲の主要な区間のみを切り出したサムネイル音源を受聴させる試聴システムがある. サムネイル音源により,楽曲全体を受聴せずとも楽曲のイメージを把握することが可能となり,試聴音源から所望の楽曲を容易に判別可能となる. 現在,この試聴システムにおけるサムネイル音源は手動で作成されている. しかし,膨大な数の楽曲から人手でサムネイル音源を作成することは困難であるため,サムネイル音源を自動生成する技術の実現が望まれている. そこで本発表では,サムネイル音源の自動生成を目的とし,楽曲に含まれる定位情報から主要構成を自動で推定する手法の提案を行う. 提案法は,楽曲中における楽器群(オーディオオブジェクト)の定位情報の変位点と,楽曲構成の切り替わり区間が概ね一致すると仮定し, オーディオオブジェクト定位情報の変位点を解析することで楽曲の主要な構成区間を推定する. また,提案法の有効性を示すために客観評価実験および主観評価実験を行い,実験結果を述べる. 次に,客観評価実験より,提案法における最適なパラメータを示す. 最後に,提案法と時間情報に基づく他の楽曲構成解析手法の統合を行い,提案法に固有の有効性があることを示す.