フリーウェアシェアウェア特化型セキュリティ情報収集システムの開発

脇本 雄一郎 (0651145)


フリーウェア,シェアウェアに関するセキュリティ情報は, これらの情報を網羅的に収集,開示しているサイトは見あたらないため, ユーザ自身が検索エンジンなどを駆使して自力でこれらの情報を収集しなくてはならず, 多大な時間と労力を必要とする. そこで本研究では,フリーウェア,シェアウェアに関するセキュリティ情報をWeb上から自動収集し, データベース化するシステムを提案する. しかし,セキュリティ情報を収集するシステムの構築には, (1)フリーウェア,シェアウェアは多数存在し,各ソフトウェアのセキュリティ情報は, Web上に分散している, (2)ソフトウェア作者のWebページや一般の掲示板,ブログなど、セキュリティ情報の提供方法が多様 で統一されていない, などの問題がある.本研究ではこれらの問題に対し, それぞれ(1)Web上からソフトウェア名を収集し,これを利用してセキュリティ情報を収集する, (2)セキュリティ情報が存在する可能性の高いサイトから順に参照する, という方針で解決策を検討する. 以上の予備的検討の結果に基づき, 本システムは,ソフトウェア名収集部,セキュリティ情報ページ収集部,セキュリティ情報抽出・同定部の4つの機能から 構成されるシステムとし, 本研究では,以上の構成要素のうちソフトウェア名収集部とセキュリティ情報ページ収集部の開発を行った.

ソフトウェア名収集では,セキュリティ情報ページを収集するときに検索キーワードとして 利用するためのソフトウェア名を収集する. Web上では非常に多くのソフトウェアが流通しており,ソフトウェア名の網羅的なリストを 構成することは,少なくとも手作業では困難である. 本システムでは,既知のソフトウェア名を検索キーワードとして ソフトウェア名の列挙されたWebページ を検索し, ヒットしたWebページから新たなソフトウェアを特定,抽出,収集するブートストラップ法を用いる. Webページからのソフトウェア名の特定は,ソフトウェア名を含んでいることを示唆する文書構造を利用し,また,関連語句の 存在の有無に注目する.注目する文書構造や関連語句ごとに,(1)ソフトウェア名はブロックに まとまって記載されていることに注目したブロック分割・選択法,(2)ソフトウェア名は 同一ページ内で共通のタグ列に修飾されていることに注目した修飾タグ列法, (3)ソフトウェア名はソフトウェア関連語句と共起することに注目した 関連語句共起検証法の3つを提案する.

セキュリティ情報ページ収集では,セキュリティ情報の記載されたWebページを,Web上から 網羅的に収集する. Web上には膨大な数のページが存在するため,効率的な情報収集のためには, 対象となるWebページの絞り込み作業が必須となる. 本システムは,収集時間短縮のため,セキュリティ情報が存在する可能性の高いサイトから順に情報収集を行う. たとえば,ソフトウェアの作者Webページ,ソフトウェア添付のテキストファイル等には, セキュリティ情報が記載されている可能性が高い.探索対象に優先度を付け,効率的に情報収集を行うが, それでもセキュリティ情報が見つからない場合は,セキュリティ関連語句を用いたWeb検索を行う. セキュリティ情報有無の判定は, セキュリティ関連語句の有無をベクトル要素としたサポートベクターマシン(SVM)を3つ用いて行う. 提案する判定手法の精度はセキュリティ関連語句の選び方に左右されるため,本研究では,セキュリティ情報ページと それ以外のWebページを比較して,セキュリティ情報ページで多く出現し,それ以外のWebページで ほとんど出現しない語句を特定することで,セキュリティ関連語句の選択を行う.

評価実験では,提案手法を用いてWeb上からソフトウェア名およびセキュリティ情報ページを収集し, 収集精度の評価を行う.その結果,ソフトウェア名収集では,シードとなる僅かな既知ソフトウェア名から 多くのソフトウェア名を収集できるものの,誤ってソフトウェアと特定された語句も多数収集してしまう ことが明らかとなった. 一方,セキュリティ情報ページ収集では,SVMによるセキュリティ情報ページ判定において,多数決を採用したときの 正答率が78%,結果の和集合(3つのSVMのうち1つでもセキュリティ情報ページと判定した場合, そのWebページをセキュリティ情報ページとする)を採用したときの正答率が87%となるが, 検索エンジンによる収集で,異なるソフトウェアのセキュリティ情報ページを誤って収集するなど,精度面に 若干の課題が残されている.