Microarray Gene Expression Analysis: A Selection Criterion for Robust Classifiers

鈴木 郁美(0451067)


遺伝子発現量プロファイルに基づく判別問題では,従来クロスバリデーションに よって複数の判別器の性能を評価し,その評価が最大となる判別器を選ぶことが 行われてきた.しかし,発現量データのもつ高次元性と,それに比較して少ない サンプル数のため,クロスバリデーションによる性能評価の期待分散が大きく, 得られた判別器の信頼性が低いという問題があった. 本研究では,この問題を解決するため,クロスバリデーションによるテスト性能 の分散を考慮することで,悪い判別器が得られるリスクを回避してモデル選択を 行う Parametric Noise Bootstrap and Percentile (PNBP) 法を提案する. PNBP法では,実際の発現量にノイズを加えることにより, 人工的にデータセット を複数作成し,各 データセットに対して判別器を構成することで,悪い判別器が得られるリスクを 評価する.我々はPNBP 法をマイクロアレイデータ対する典型的な判別手法であ るWeighted-Voting (WV) 法の遺伝子数選択問題に適用し,実際の発現量データ を用いて実験を行った.PNBP 法で得られた判別器は従来法に比べて多数の遺伝 子を利用して判別を行う傾向が見られ,その傾向はサンプル数が少ないとき により顕著であった.このことは,提案手法がデータ出現の偏りに起因した性能 評価のばらつきに影響を受けにくく,リスク回避型のモデル選択基準として有効 であることを示唆する.