ラベル有り・ラベル無し混在データを用いた時系列データ認識手法の検討

井上雅史 (9951012)


認識モデルの学習には,特徴量とその所属クラスのラベルとの組である, ラベル有り訓練データが一般に用いられる. しかしながら,ラベル有り訓練データの数が十分でない場合, 認識モデルの学習結果は不適切なものとなってしまう. この問題の解決法として, クラスラベルが付与されていないラベル無しデータを 訓練データに混在させるすることで, データ数の不足を補う方法が幾つか考案されている. しかしながら,これらの方法は静的データのみを対象としており, 時系列データを対象とする手法は未だ存在しない. 結果として, 認識モデルの改善に寄与しうる膨大なラベル無し時系列データが 活用されないままになっている.

そこで,時系列のラベル有り・ラベル無し混在データを取り扱うために, 時系列認識手法として広く使われている隠れマルコフモデル(HMM)を拡張した, ETM-HMMを提案する. ETM-HMMは通常のクラスごとに独立なHMMが,それぞれの出力分布を特定クラスのデー タのみで学習するのに対し,出力分布を全クラスで共有することによって 分布推定に全ての訓練データを利用することができる. そして,ETM-HMMの学習アルゴリズムとして拡張Baum-Welchアルゴリズムを導出する. Baum-Welchアルゴリズムは,状態系列を隠れ変数として取り扱うが,拡張 Baum-Welchアルゴリズムでは,さらにクラスラベルも隠れ変数として定式化を行う. 提案手法におけるラベル有り・ラベル無し混在データを用いた学習の効果を, 人工データ及び手話データを用いた認識実験により評価した. その結果,ETM-HMMの学習における訓練データへのラベル無しデータの追加が, 少数のラベル有りデータのみで学習されたモデルの 認識性能を改善することを確認した.

本発表ではモデルの訓練データにおけるラベル有り・ラベル無しデータの 混在の意図を概説し, 提案法であるETM-HMMと, その学習アルゴリズムである拡張Baum-Welchアルゴリズムを紹介する. その上でラベル有り・ラベル無し混在時系列データの効果に関する実験結果を示し, ラベル無し時系列データを用いる利点と,利用に当っての問題点について考察する.