隠れマルコフモデルによるG四重鎖DNA配列のモデル化

矢野 正人 (1251110)


デオキシリボ核酸(DNA)が取り得る二次構造の中にG四重鎖というものがある.G四重鎖は4つのグアニンが互いに隣り合うグアニンと水素結合することで形成される立体構造で,この構造が形成されるには4ヶ所のグアニンが直列する領域(G-run)とこれらの領域を繋ぐ何らかの塩基が直列する領域(loop)が必要である.G-runは少なくとも2塩基のグアニンが必要だが,loopは無くても構わない.配列中のG四重鎖を予測する手法としては,正規表現などを用いたパターンマッチングが広く利用されている.しかし,パターンマッチングで得られるG四重鎖の候補配列は多くの場合,G四重鎖よりも安定した構造を取ることが知られている(擬陽性の問題).そこで,本研究は隠れマルコフモデル(HMM)を使ってG四重鎖の詳細なモデル化を行い,既存手法で得られるG四重鎖の候補配列から擬陽性を低減することを目的としている.

HMMは4ヶ所のG-run領域と3ヶ所のloop領域それぞれを表す状態と状態間の遷移から構成されるものとし,各領域を表す状態の数が異なる4種類のモデルを考える.まず,各モデルに対して内部構造を予測する実験の結果から,いずれのモデルもG四重鎖構造をよくモデル化できていることを確かめる.次に既存手法より得られたG四重鎖候補から擬陽性を低減する実験の結果から,特にG-runを表す状態を増やしたモデルを使うことでG四重鎖候補から擬陽性を低減させられる可能性があることを確認し,既存手法に対するHMMを使ったモデル化の優位性を示す.またこれらの結果から,長さに対してG四重鎖を多く含む遺伝子を特定し,G四重鎖が遺伝子発現の制御に関わっている可能性があることを示す.

以上の成果より,HMMを使ったG四重鎖モデルは,配列中のG四重鎖を既存手法より精度よく予測できる可能性があり,G四重鎖の機能推定や,G四重鎖を対象構造とする薬物の開発などの研究において支援ツールとなると考えられる.