最尤変換法による携帯電話音声の帯域拡張

藤敦 渉(0651107)


近年,爆発的に普及した携帯電話によって,音声コミュニケーションをより頻繁かつ容易に行う事が可能となった. 一般的に用いられている携帯電話音声は 3.4 kHz 以下の狭帯域音声であり,その音質は十分であるとは言い難い.

情報量を増加させずに広帯域音声コミュニケーションを実現する手法として帯域拡張法が研究されている. 帯域拡張は狭帯域音声のみから広帯域音声を再構築する技術である. 従来の典型的な手法として,混合正規分布モデル (Gaussian Mixture Model; GMM) を用いた最小二乗誤差 (Minimum Mean-Square Error; MMSE) 推定 に基づく帯域拡張が提案されている.MMSE 基準の手法は比較的高い変換精度を実現できるものの,1)フレーム間の相関を考慮 していないため,時間方向に不適切な変換音声特徴量の遷移が生じる事がある,2) 汎下処理により推定された広帯域スペクトル包絡が過剰に平滑化されてしまう,と いった問題点が残されている.

本発表では, 従来の問題点を解決する手法として, 動的特徴量と系列内変動を考慮した最尤基準変換法を導入した GMM に基づく帯域拡張法を提案する. さらに,不特定話者に対応するために,固有声に基づく変換法を帯域拡張に導入する. 客観評価及び主観評価実験により,提案法の有効性を示す.