ゼミナール発表

日時: 10月14日（金）2限 (11:00-12:30)

会場: L2

司会：アルタフルアミン助手

岩西　雄大 M2	小笠原　直毅	金谷　重彦	土居　洋文	土井　晃一
発表題目：機械学習を用いたepitopeの位置の予測に関する研究発表概要：Epitopeは抗原の一部で、抗体あるいはT細胞レセプターと認識する部分を指す。現在、in silico法を用いたepitope予測は、Position Specific Scoring Matrices (PSSM)やNeural Networkなどの方法論で行われている。Epitopの位置の予測は、例えば、ガンや膠原病といった免疫系疾患の治療法開発を促進させる可能性がある。本研究では、これまでに実験的に確認された既知のepitopeのアミノ酸配列に対し、機械学習の方法を用いてepitopeの位置を予測する。既知のepitopeの集合をトレーニングデータとテストデータに分け、機械学習を適用した。機械学習の方法論として、Support Vector Machine (SVM)とConditional Random Fields (CRFs)を採用し、性能の比較を行った。

秋田　一 M2	金谷　重彦	小笠原　直毅	黒川　顕	川端　猛
発表題目：微生物ゲノムにおけるtRNA遺伝子の構成と進化解析発表概要：微生物ゲノムにコードされているtRNA遺伝子は、生物種によってその数と構成は大きく異なる。本研究では、これらのtRNA遺伝子の多様性を生むダイナミクスを解明することにある。tRNA遺伝子数と染色体の塩基配列長を比較した結果、生物種を3つのグループに大別させることができ、そのうち一つのグループでは、tRNA遺伝子数が爆発的に増大していることが明らかとなった。このグループに属する種では、tRNA遺伝子がクラスターを形成する傾向が強く、さらに少数種のtRNA遺伝子のみで構成された巨大なクラスターも存在することから、遺伝子重複により局所的にtRNA遺伝子が増大したことを示唆できる。これらの特徴的なクラスターを生物種内・種間で系統比較することで、tRNA遺伝子の進化およびゲノムにおける多様性獲得のダイナミクスを解明しようとしている。

田中　宏幸 M2	金谷　重彦	湊　小太郎	黒川　顕	川端　猛
発表演題：Polypurine/polypyrimidine配列の比較ゲノム解析発表概要：Polypurine/polypyrimidine配列は、3重鎖構造（Triplex）のような特殊な立体構造の構築と関係し、転写制御や複製機構といった分子生物学的機能との関連が示唆されている。現在、ゲノムプロジェクトの進展に伴って、250種以上のバクテリアに加え、ヒトやマウスのような高等真核生物のゲノム配列も決定されている。3重鎖構造のような非B型DNA構造のゲノム多様性を把握する目的で、これらのゲノムデータを基に生物種間におけるPolypurine/polypyrimidine配列の出現特徴を調べ、更にヒトにおけるPolypurine/polypyrimidine配列の生物学的働きについて解析を行った。

糸山　宗秀 M2	石井　信	金谷　重彦	黒川　顕	川端　猛
発表題目：包括的発現プロファイルによる遺伝子分類発表概要：生命現象を総合的にシステムとして理解するためには、細胞あるいは組織全体の遺伝子ネットワークを把握することが重要である。その基礎データを得る目的から種々の実験条件おけるマイクロアレイの解析が行われてきた。それらは主に２値の尺度、連続尺度、順序のない離散型尺度にでの比較解析が中心であった。だが、これらの解析は一実験条件における遺伝子機能予測に限られた。しかし、生命現象下での各々の遺伝子ネットワークの多面性を理解するためには、全遺伝子郡における多様な実験条件下での膨大な遺伝子発現情報を統合して解析しなければならない。そこで今回、多面的な機能を有する遺伝子ネットワークの解明を目的として、国内外のシロイヌナズナについて公開されているGeneChipデータ（約1000枚）をもとにこれらの発現量について特徴記述を検討した。次に得られたデータの再現性を統計解析により検討し、十分な再現性を有する評価数値のみ選定した。これらの数値データをもとに発現類似性に基づいた遺伝子の分類を今後行う予定である。

鈴木　郁美 M2	石井　信	金谷　重彦	川端　猛
発表題目：マイクロアレイ遺伝子発現量解析、テストバリアンスを考慮した安定した判別器の作成発表概要：　癌細胞の遺伝子発現量をマイクロアレイで観測し、統計的手法により癌の予後予測を行う試みが医療現場で実用化されつつある。統計的手法による予後予測とは、参照症例の生存情報と、その症例から得られる遺伝子発現量をもとに、新たな症例の予後を推定する判別器を作成するものである。判別器を作成するモデルは複数考えられるが、ここでは遺伝子数の選択を含めたweight-vote法を用いる。限られたデータで判別器の性能を計る方法として、ここではleave-one-out法を用いる。判別器の作成に関わっていないテストデータの遺伝子発現量から予後を予測し、テスト性能の平均を求めることで各判別器の性能を計る。構成遺伝子数の異なる判別器の中から性能の最もよいものを最良の判別器として選択する。しかし、判別器を作成する症例数は小さく、テストの際、判別器の作成に関連した学習データによって、識別結果の異なる判別器が学習されてしまう。また、モデルによっては学習データによって識別結果の大きく異なる(variance が高い)ものと、そうでないものとがあり、これはテスト性能の平均だけでは計れない。Variance の高い判別器は仮に平均が高くても、信頼性が低く、医療現場での応用にふさわしくない。大きく識別結果が異なる判別器が学習されないように、学習データに依存せず、安定した判別器を作成する遺伝子数を選択する必要がある。本研究では、実データを基に性能のノイズの分布をシミュレートし、より安定した判別器を選択する新たな方法、Parametric Noise Bootstrap Percentile法を提唱する。