Microarray Gene Expression Analysis: A Selection Criterion for
Robust Classifiers
鈴木 郁美(0451067)
遺伝子発現量プロファイルに基づく判別問題では,従来クロスバリデーションに
よって複数の判別器の性能を評価し,その評価が最大となる判別器を選ぶことが
行われてきた.しかし,発現量データのもつ高次元性と,それに比較して少ない
サンプル数のため,クロスバリデーションによる性能評価の期待分散が大きく,
得られた判別器の信頼性が低いという問題があった.
本研究では,この問題を解決するため,クロスバリデーションによるテスト性能
の分散を考慮することで,悪い判別器が得られるリスクを回避してモデル選択を
行う Parametric Noise Bootstrap and Percentile (PNBP) 法を提案する.
PNBP法では,実際の発現量にノイズを加えることにより, 人工的にデータセット
を複数作成し,各
データセットに対して判別器を構成することで,悪い判別器が得られるリスクを
評価する.我々はPNBP 法をマイクロアレイデータ対する典型的な判別手法であ
るWeighted-Voting (WV) 法の遺伝子数選択問題に適用し,実際の発現量データ
を用いて実験を行った.PNBP 法で得られた判別器は従来法に比べて多数の遺伝
子を利用して判別を行う傾向が見られ,その傾向はサンプル数が少ないとき
により顕著であった.このことは,提案手法がデータ出現の偏りに起因した性能
評価のばらつきに影響を受けにくく,リスク回避型のモデル選択基準として有効
であることを示唆する.