アミノ酸配列を用いた機械学習法の予測性能比較

岩西 雄大( 0351151)


研究梗概

 本論では、バイオインフォマティクスの分野で注目を集めているSupport Vector Machine(SVM)と自然言語処理の分野で既存の手法が抱ええいる問題を解決して くれると期待されているConditional Random Fields(CRFs)を用いて、シグナルぺプチドの 開裂部分予測とエピトープ予測を行い、2つの機械学習法の予測性能を比較した。データ ベースにはシグナルペプチドのデータベースであるSignalPとエピトープのデータベースで あるMHCBenchを採用した。シグナルぺプチドの開裂部分予測において評価方法に5 fold cross validation (5CV)を用いて、accuracyを算出した。一方、エピトープ予測では、評価 方法にone vs leaves法の名の1つであるjack knifeを用いて、receiver operating characteristics (ROC)曲線を作成し、この曲線とx軸に挟まれた面積を台形公式を用いて算出した。これら 算出した値から比較した結果、シグナルペプチドの開裂部分予測ではCRFs、エピトープ 予測ではSVMが予測性能が優れいることについて述べる。更に、開裂部分予測において SVMはkernelの次数を1〜4の4つに変化した。CRFsでは2つの予測において左右対称の window sizeを変えて各機械学習法の性能比較をした。SVMではkernelの次数が2と3の ときに最も高い予測性能を示す。CRFsではエピトープ予測において差異は見られなかったが、 シグナルぺプチドの開裂部分予測に関してCRFsではwindow size がeukaryote では±6、 gram positive、gram negative 共に±3、SVM では、eukaryote では±18、gram positive では ±21、gram negative では±24 のときに最も高い予測性能を示す。