条件付きロジスティクス回帰を用いた重み付き多タスク学習

濱口拓男(1151083)


背景と目的

 本研究では,クラス分類を扱う.
 その画像などのデータが与えられた時,テキストやデータがどのクラスに所属するかを推定する手法をクラス分類という. クラス分類は,自然言語処理に限らず画像処理や音声処理でも用いられる重要な手法であり, 様々な手法が研究されている.

マルチタスク学習とMulti-Task Feature Learning

 Multi-Task Feature Learning(MTFL)はそのようなクラス分類を扱うことのできるモデルである.
 多タスク学習(マルチタスク学習)とは, 複数のタスクを組み合わせることで全体の性能の向上を期待するアプローチに基づく手法であり,様々なモデルが存在する. その中でもMTFLは,ロジスティクス回帰やリッジ回帰といったモデルを1つのタスクとして扱い, 複数のモデルのパラメータを正則化項で関連付けるモデルである.

 ある商品のレビューがあった時,その評価が良いものか悪いものかを判断したいとする. 一般的なクラス分類の手法の1つである,ロジスティクス回帰では レビューのテキスト情報を用いてその良し悪しの判定を付ける. しかし,レビューのテキストに登場する単語は,その商品のカテゴリィに大きく依存している場合ある.
 例えばunpredictableという単語が登場するとき,レビューされている商品が映画の場合は良い評価を得られやすい. しかしレビューされている商品が日用品の場合は,悪い評価になる傾向がある.
 このような性質を捉えるため,MTFLはカテゴリィ毎にロジスティクス回帰やSVMを用意することで, カテゴリィに特化した学習を可能にした. また各タスクのパラメータを正則化項で関係つけることにより, 過学習の抑制も同時に実現している.

条件付きロジスティクス回帰

 MTFLは,タスクの情報を元に予測を行うモデルである. 前述の例の場合では,商品のカテゴリィがタスクの情報となっている. しかし,インスタンスが複数のタスクに所属する時,1つの値に対して複数の予測が出力されてしまう場合が存在した.
 この制約を解消するために,まず条件付きロジスティクス分布を定義する.
 条件付きロジスティクス分布とは,あるラベルを持っているインスタンスを確率変数に持つロジスティクス分布である. これは,MTFLがタスク毎にモデルを用意した定義と関係している.
 これを用いてロジスティクス分布をラベルを変数として条件付きに展開をすることにより, 条件付きロジスティクス分布とロジスティクス分布の和として表現することができる.

重み付き多タスク学習

 以上の条件付きロジスティクス回帰を用いて,重み付き多タスク学習を提案する. 個々の条件付きロジスティクス分布を,MTFLに対応するタスクとして用いた場合, このモデルは複数の出力の重み付き和を計算することができるモデルになっている.
 応用として,テスト時にタスクの情報が使えない場合に,MTFLを適応することが可能になる. 例えば,Amazonのレビューを用いて学習を行った結果を,楽天のレビューに使うことができる. 両者はタスクの情報が違う為,通常そのままモデルを用いるのは難しかった. またこの手法は他の多タスク学習の手法の幾つかにも用いることができる,