ホモログを認識することはタンパク質の立体構造,分子機能を推定する上で重要である. しかし,アミノ酸配列間の類似性が低いにも関わらず, 相同な関係にある``遠縁のホモログ"を配列から発見することは容易ではない. 従来の配列間相同性検索ツール(PSI-BLAST)でも, その全てを検出するのは困難である. 本研究ではこの遠縁のホモログの検出精度を高めることを目的とする.
この目的を達成するために, 本研究ではPSI-BLASTを用いて, E-valueがそれほど良くないタンパク質のペアを集めた後, それらの中から, 真に相同なペアを新たな特徴量を用いて抽出をする方法を採用した. 特徴量として, 予測二次構造の一致度, 予測溶媒露出度の一致度, 共有するモチーフのスコアの三つを用いた. これらを考慮した最終的な判定法として, 単純な重心法およびSupport Vector Machineの二つの 機械学習を行った.
SCOPデータベースによる分類を正解として, 性能評価を行ったところ, これら三つの特徴量をE-valueと組み合わせた場合, PSI-BLASTのE-value単体より認識性能が向上することが分かった.