生物活性に関連した最適塩基配列の抽出法

納庄達也 (0851155)


塩基配列はすべての生物においてその遺伝情報を担っており、現在までにその情報を読み解き利用するために様々な手法が開発されてきた。コンセンサス配列のような特徴的な塩基配列パターンを見出す方法として、よく保存された配列の場合は多重配列アラインメントが利用され、そうでない場合は統計的な手法(期待値最大化法や隠れマルコフモデルなど)が利用される。しかし、既存の解析方法では解決できない例も多く、これは計算機によって解かれなければならない問題として未だに残されている。また、生物活性と塩基配列とを関連付ける方法は存在せず、またその方法論もあまり研究されていない。本研究では上記の問題を解決し、生物活性に関連する最適塩基配列を抽出するための新規のアルゴリズムを開発した。

シロイヌナズナ遺伝子に由来する5’UTRの熱ストレスに対する影響を調べ、そのデータを基に塩基配列と活性値を関連付けることで、活性値に最も寄与する塩基配列(最適配列)を抽出する解析手法を検討した。まず多重共線性の問題を解決できるPLS (Partial Least Squares)を解析に用いて、塩基配列中に含まれるn塩基配列の頻度から発現量を予測するモデルを構築する。次に、得られたn塩基配列頻度の係数をもとに、独自のアルゴリズムを用いて翻訳効率を促進するための最適塩基配列を抽出する。本発表では以上の解析手法について詳細を述べるとともに、その有用性を実験により検証した結果を示す。