Pfamにおけるモチーフ配列判別へのfalse positive 減少を目的とした相関情報の付加

西村 勇樹(0351096)


 新たに解読されたタンパク質配列の機能・構造情報の検索方法の一つとして、Pfam(Protein Family Database)を利用して配列と類似するモチーフを検索した情報から類推するという方法がルーチンワークとして利用されている。

 Pfamにおけるモチーフ検索はHMMERを利用したプロファイルHMMを用いた確率計算によって算出されたスコアを基準にして行われている。また、プロファイルによる判別の特徴として個々の残基の出力確率と状態遷移確率から計算したスコアを用いていることが挙げられる。その過程では、距離の離れた残基同士の相関関係の情報などは考慮されていない。この情報には結合部位などの構造情報が含まれている可能性があり、この情報が判別に有効に機能すればHMMERのモチーフ判別の精度向上に寄与することが考えられる。

 本研究では相関情報の適用として、相互情報量によるアラインメントの共起頻度の高い部位の抽出を行った。その部位に共起確率スコアを適用し、関係性の高い部位における特定の残基の出力がスコアに反映されることを狙いとした。それにより、相関情報を付加することがモチーフ検索において検索精度の向上が達成され、モチーフの特徴的な情報を考慮した判別を行うことが可能であるかどうかを確認した。