変数名に基づくソフトウェアバグ密度予測

山本 博之 (0851126)


従来,ソフトウェア中のfault-proneモジュール(バグを含みやすいモジュール)を予測するために,モジュール構造の複雑さを表すメトリクスが用いられてきた.ただし,バグの混入には,モジュール構造の複雑さのみならず,開発者やモジュールの機能も影響する.本論文では,開発者やモジュールの機能の違いを反映すると考えれる変数名に着目し,変数名を用いてバグ密度の予測を試みる.本論文では,Exclipseプロジェクトを対象としてモジュールに含まれる変数名を調査,分類し,汎用的に含まれる変数名や,単一のモジュールにしか含まれない変数名を除外し,条件に合致した125個の変数名を得た.次に,変数名とメトリクスのそれぞれに基づく予測精度を比較するために,3つの予測モデル,重回帰分析,回帰木,ランダムフォレストを用いて評価実験を行った.その結果,モジュールの構造メトリクスを用いた場合と比較して,変数名を用いた場合にバグ密度のAlberg DiagramのAUCが3つのモデルで平均0.030向上し,従来法と同等以上の精度で予測できることが分かった.