二方向因子分析による行列データの欠損値予測

袖林 和広 (0651052)


確率的主成分分析(PPCA)や因子分析(FA)は欠損予測, 次元削減, データ可視化な どに対してよく用いられる確率的多変量解析モデルである. これらのモデルは行列データの各列(もしくは各行)を多変量の独立同一分布に従 う(i.i.d.)標本と見て いるため標本ごとに異なる確率モデルを想定できなかった. 例えばサンプルごとに異 なるノイズが含まれるケースにはより柔軟なモデリングが適していると思われる. 本研究では, より柔軟な行列モデリングのために確率的行列因子化モデルを提案 する. 本論文ではその応用として, 我々は変量ごとに異なるノイズとサンプルごとに異なる ノイズを同時に考えた新しい確率モデルである二方向因子分析(2FA)モデルを提 案し, このモデルのデータからの同定を最尤推定, そして自動関連性決定(ARD) に基づく事前分布の元での事後確率最大推定の枠組みで定式化した. また, 2FAモデルと, 従来モデルを用い て人工データと遺伝子発現プロファイルデータの データ行列に対して欠損値予測を行い, その予測精度を比較した.