時間変化情報を考慮した音響生成モデルの推定

井原 瑞希 (0551011)


楽音や音声の音波形の生成過程は, 音源の生成と共鳴による調音を分離した線形分離等価回路モデルで表現でき, 音源特性と調音特性のそれぞれを推定することで 楽音・音声の圧縮,認識や合成に有効利用できると考えられている. しかし,観測できる音波形から短時間ごとに未知の音源特性と調音特性の 両方を同時に推定するこのモデルには,不定性が生じる.

そこで本研究では,簡単化のためにまず楽音を対象とし, 楽音の線形分離等価回路モデルにおいて, 調音特性は時間的に変化せず 音源特性(基本周波数・音圧)が時間的に滑らかに変化するという仮定のもとで 前後の時間に依存関係をもつダイナミカルシステムを構築することで, 高精度な音響生成モデルの推定を試みた.

このダイナミカルシステムは非線形非ガウスの観測過程を有し, 解析的に未知パラメータを推定することは困難である. そこで,自由エネルギーを近似し, 近似された自由エネルギーを最小化することによって最尤推定を行うことを試みた. ここで自由エネルギー最小化には滑降シンプレックス法を採用した.

推定された調音特性のパラメータは楽器固有の特徴を表現していると考えられるので, それ用いて楽器分類が可能かどうか確かめ, その結果,従来手法に比べてはるかに少ないパラメータ数で, 同等もしくはそれ以上の分類ができることを確かめた. さらに,局所フィッシャー判別分析(LFDA)により パラメータ空間の次元を減らしても あまり性能が劣化せずに楽器分類ができることも確認し, これらの結果と音声への適用の可能性について議論する.