NAIST-IS-MT1251103: Tomo Miyauchi

音源到来方位分布と非負値行列因子分解を用いた混合音源中の音像深度推定

宮内智 (1251103)

本論文では，wave field synthesis (WFS) とステレオコンテンツを用いて高い臨場感を得ることができる音響システムの構築を目指し，音源の到来方位 (direction of arrival: DOA) 分布に基づく混合音源中の音源深度推定手法を提案する． WFS は音場再現技術の一つであり，再現対象音源を任意の位置に定位させた場合の波面を物理的に再現する． WFS により高臨場感再現が可能となった一方で，既存コンテンツにおいては WFS が必要とする情報 (一次音源情報) が縮退しているため，そのまま WFS で再生することはできない．従って，既存コンテンツから各一次音源を分離した上で定位情報を推定し，WFS で再現可能な音源を自動生成する手法の確立が望まれる．しかし，音源の深度情報推定手法は確立されていない．そこで，本研究では，一次音源の深度推定を目的とし，新規の深度推定手法を提案する．提案法では，音源の DOA 分布形状を特徴量として用いる． DOA は電波や音波などの到来方位を意味するものであり，DOA を用いた音源分離手法等が提案されている．本研究では，音源と受聴者との距離に応じた音源の DOA 分布の形状変化に注目し，音像深度推定に用いることを考える．その際，DOA 分布を一般化ガウス分布 (generalized Gaussian distribution: GGD) でモデリングし，形状パラメータを評価指標とする．GGD の形状パラメータは閉式解を有していないが，本論中で近似による推定式を導出する．また，アクティベーション共有型マルチチャネル非負値行列因子分解を改良手法として提案し，更新式の導出を行う．この手法は，深度推定を行う際に問題となる，元の信号に含まれる背景雑音やデジタル信号処理中で生じる人工的な歪みを抑制するための次元圧縮手法として用いられる．最後に，提案法の有効性を確認するために，実音場で収録した音源を用いた客観評価実験を行い，混合音源中の音像深度推定に対する提案法の有効性を確認した．