ソフトウェア名収集では,セキュリティ情報ページを収集するときに検索キーワードとして 利用するためのソフトウェア名を収集する. Web上では非常に多くのソフトウェアが流通しており,ソフトウェア名の網羅的なリストを 構成することは,少なくとも手作業では困難である. 本システムでは,既知のソフトウェア名を検索キーワードとして ソフトウェア名の列挙されたWebページ を検索し, ヒットしたWebページから新たなソフトウェアを特定,抽出,収集するブートストラップ法を用いる. Webページからのソフトウェア名の特定は,ソフトウェア名を含んでいることを示唆する文書構造を利用し,また,関連語句の 存在の有無に注目する.注目する文書構造や関連語句ごとに,(1)ソフトウェア名はブロックに まとまって記載されていることに注目したブロック分割・選択法,(2)ソフトウェア名は 同一ページ内で共通のタグ列に修飾されていることに注目した修飾タグ列法, (3)ソフトウェア名はソフトウェア関連語句と共起することに注目した 関連語句共起検証法の3つを提案する.
セキュリティ情報ページ収集では,セキュリティ情報の記載されたWebページを,Web上から 網羅的に収集する. Web上には膨大な数のページが存在するため,効率的な情報収集のためには, 対象となるWebページの絞り込み作業が必須となる. 本システムは,収集時間短縮のため,セキュリティ情報が存在する可能性の高いサイトから順に情報収集を行う. たとえば,ソフトウェアの作者Webページ,ソフトウェア添付のテキストファイル等には, セキュリティ情報が記載されている可能性が高い.探索対象に優先度を付け,効率的に情報収集を行うが, それでもセキュリティ情報が見つからない場合は,セキュリティ関連語句を用いたWeb検索を行う. セキュリティ情報有無の判定は, セキュリティ関連語句の有無をベクトル要素としたサポートベクターマシン(SVM)を3つ用いて行う. 提案する判定手法の精度はセキュリティ関連語句の選び方に左右されるため,本研究では,セキュリティ情報ページと それ以外のWebページを比較して,セキュリティ情報ページで多く出現し,それ以外のWebページで ほとんど出現しない語句を特定することで,セキュリティ関連語句の選択を行う.
評価実験では,提案手法を用いてWeb上からソフトウェア名およびセキュリティ情報ページを収集し, 収集精度の評価を行う.その結果,ソフトウェア名収集では,シードとなる僅かな既知ソフトウェア名から 多くのソフトウェア名を収集できるものの,誤ってソフトウェアと特定された語句も多数収集してしまう ことが明らかとなった. 一方,セキュリティ情報ページ収集では,SVMによるセキュリティ情報ページ判定において,多数決を採用したときの 正答率が78%,結果の和集合(3つのSVMのうち1つでもセキュリティ情報ページと判定した場合, そのWebページをセキュリティ情報ページとする)を採用したときの正答率が87%となるが, 検索エンジンによる収集で,異なるソフトウェアのセキュリティ情報ページを誤って収集するなど,精度面に 若干の課題が残されている.