まず、先行研究で有用とされた位置特異的なアミノ酸の出現頻度などの進化情報に、溶
媒露出度などの構造情報に加え、新規の特徴量として、変異アミノ酸スコア、天然アミ
ノ酸スコア、ポケット度という特徴量を用いて予測を行った。この結果、新規に用いた
特徴量も一定の予測性能を示したが、最も予測精度が優れていた特徴量は、位置特異的
なアミノ酸の出現頻度であった。次に、マハラノビス距離による線形判別分析の手法を
用いて、本研究で用いた特徴量のうち、全ての2個の特徴量の組み合わせで同様に予測
を行ったところ、位置特異的なアミノ酸の出現頻度に変異アミノ酸スコアもしくは、溶
媒露出度を加えた組み合わせが、最も優れた予測精度を示したことが分かった。さらに、
データセット中のnsSNPを、酵素に生じたnsSNPと非酵素に生じたnsSNPに分け、
各サンプルに対して、同じように全ての2個の特徴量の組み合わせで予測を行う場合と
組み合わせない場合にさらに分けて、どの手法が予測に適しているのかを調べた。その
結果、酵素に生じたnsSNPについては、組合わせを行わない場合は位置特異的なア
ミノ酸の出現頻度で、組み合わせを行った場合は位置特異的なアミノ酸の出現頻度に溶
媒露出度を加えた組み合わせがそれぞれ予測に最適であった。非酵素に生じたnsSNP
については、組み合わせを行わない場合は、位置特異的なアミノ酸の出現頻度で、組み
合わせを行った場合は、位置特異的なアミノ酸の出現頻度に変異アミノ酸スコアを加え
た組み合わせがそれぞれ予測に最適であった。ここで挙げた組み合わせは全て、それぞ
れの特徴量の値に対数変換を行ってから予測精度を評価した。
この知見は、従来の予測手法を改善するための重要な指針を与えると考えられる。