統計的推定による遺伝子発現解析

森岡 涼子 (0051111)


生物学が目指すところの1つは生命現象を包括的に理解することであるが、その過程において、個々の現象に関わる遺伝子やタンパク質を同定したり、その性質を解析することが現在の主要な課題となっている。個々の遺伝子をターゲットとした従来のボトムアップアプローチに加え、DNAマイクロアレイによって得られる大量の遺伝子発現データを基に、生物学的な属性であるラベルを遺伝子に付与するトップダウンアプローチも試みられるようになってきた。

これらの大規模データの解析では、遺伝子発現変動パターンに着目したクラスタリングの手法が用いられる。データには、ラベルのついていない遺伝子が多く含まれ、また、マイクロアレイの実験上、ノイズが乗っている。これらのことが解析を難しくしている。クラスタリングの手法はさまざまに試みられているが、パラメータの初期値やデータに含まれるノイズによって結果が不安定となる状況において、付与するラベルにどの程度の確信を持ってよいかという基準がないなどの問題のために、実用的な技術は未だに確立していない。

本研究では、変分法的ベイズ推定による混合主成分分析を用いて、遺伝子発現量の時系列データを解析する。その結果、これまでに使われている$k$平均法で得られる最も望ましい結果と同程度に良い結果が安定して得られることがわかった。さらに、変分法的ベイズ推定における自由エネルギーは、生物学的知識による分類結果の良さを表す基準と相関があった。これらの結果は、自由エネルギーという統計的基準を用いてモデルを選択すれば、生物学的知識に合致する結果が安定して得られることを示唆しており、これは本手法が遺伝子発現解析に有用であることを意味すると考えられる。