近年,マイクロアレイや定量的 PCR 法などのmRNA 定量化技術により,細胞サンプルにおける包括的な遺伝子発現情報を得ることが可能となり,細胞の状態と遺伝子発現を直接結び付けて解析する,いわゆるトランスクリプトーム解析が行われるようになった.本論文では,トランスクリプトーム解析における諸問題に対して,頑健な解析を行うための統計的手法に関して議論する.
まず,包括的 mRNA 測定技術の一つである,アダプタ付加競合 PCR (ATAC-PCR) 法により得られる蛍光量データの特徴とその補正法について報告する.これまで問題となっていたアダプタ長依存の測定バイアスの解明を主眼とし,ATAC-PCR 法で得られたデータの詳細な解析を行った.解析結果に基づき蛍光ピーク値に関する観測モデルの定式化を行ない,ノイズ項のパラメータの推定量の導出と,それらを用いたピーク値補正法を提案した.この手法を,アダプタノイズ解析のために特化した採取されたピークデータに適用し,アダプタ依存ノイズのパラメータを求め,次いで,実データに対しバイアス補正の適用を試み,その有効性を確認した.
次に,生きた細胞における遺伝子発現ダイナミクスの解析を目指し,遺伝子発現プロファイルの時系列に対する解析法について述べる.ここでは,状態空間モデルに基き,ノイズプロセスに白色ガウシアンを仮定した線形ダイナミカルシステムモデルを考え,変分ベイズ法による推定とモデル選択を行うための新たな手法を提案した.本手法を出芽酵母細胞周期に関する公開データセットに適用したところ,従来手法で選択されたモデルと比較し,より単純かつ尤もらしいモデルが選択された.また,この結果得られたモデルパラメータは,生物学的な考察と良く一致した.人工データへの適用も行い,ノイズを含む時系列データに対する有効性が示された.
最後に,遺伝子発現からの癌の病理診断を想定した,新たな多クラス識別法について述べる.本手法では,多クラス識別問題を一対一ペアや一対残りペアなどのラベルの任意の組み合わせから成る2値分類問題群に分解し,各問題での判別結果を統合することによって最適な識別結果を得る.各2値分類問題における真の分類確率がクラス所属確率をパラメータとした確率モデルによって生成されると考え,これを2値分類器によって得られた分類確率の推定値から推定する方法,さらに2値分類器の重みを推定する方法を導いた.本手法を人工データおよび甲状腺がん分類問題をはじめとした実データに適用し,従来のヒューリスティクスによる投票法と同等以上の性能を達成することを示した.さらに,この分野で提案されてきたいくつかの多クラス識別法との比較を行い,本手法の優位性および性質を明らかにした.