オーバーおよびアンダーサンプリング法を用いたFault-proneモジュール判別モデルの精度評価
亀井 靖高 (0551035)
Fault-proneモジュール(バグを含む確率が高いモジュール)判別モデルの性能向上を目的として,サンプリング法(オーバーおよびアンダーサンプリング)適用の効果を実験的に評価する.
サンプリング法は,2群の判別モデル構築に用いるフィットデータに対する前処理であり,2群間のケース数の偏りを解消することにより,少数派の群の判別精度の向上が期待される.
しかしながら従来,ソフトウェア工学分野への適用事例は報告されていない.
実験では,4種類のサンプリング法(ROS,SMOTE,RUS,ONESS)適用の効果を,4種類の判別モデル(線形判別分析,ロジスティック回帰分析,ニューラルネット,分類木)について評価した.
4種類のサンプリング法を適用した結果,線形判別分析とロジスティック回帰分析の判別精度は向上し,ニューラルネットと分類木では向上しなかった.
線形判別分析とロジスティック回帰分析の判別モデルにサンプリング法を適用した場合の精度向上は,F1値で最小0.078,最大0.224,平均0.121増であった.