十分統計量を用いた教師なし話者・環境適応アルゴリズム

松浪 加奈子 (0051101)


実環境における音声認識では,単一の音韻モデルで多様な話者や環境に対応することは難しく,個々に特化したモデルの作成を行なうことが必要である.このため,音韻モデルを対象話者や雑音にすばやく高精度に適応させる音韻モデル適応技術が要求される. 本研究では,任意の一文から話者適応を行なう十分統計量を用いた教師なし話者適応を拡張して,話者適応および環境適応を同時に行なう教師なし話者・環境適応アルゴリズムを提案する. 本手法は三つのステップから成る.(1)雑音を学習用音声データベースに重畳し,全話者の十分統計量を計算する.(2)任意の一発声文に対して,GMM話者モデルを用いて音声データベースから音響的特徴が近い話者集合を選択する.(3)選択された話者集合の十分統計量を用いて話者適応および環境適応した音韻モデルを構築する.これにより,話者の任意の一発声文と環境雑音から話者および環境に対する教師なし適応が可能となる. さらに,データベースにあらかじめ付与した状態ラベル情報を用いることで近似的な十分統計量を高速に算出することで高速に適応が行なえる. 認識実験より,SNRが15~dBの場合,モノフォンモデルにおいて54.4%(Matched model)から61.0%,PTMモデルにおいて65.4%(Matched model)から70.1%の認識性能の改善が見られた. さらに教師あり適応法であるのMLLRとの組合せや,雑音レベルの変動の認識精度への影響についても検証した.