データ分布の偏りがコスト超過判別予測に及ぼす影響の分析

柴田 淳一郎 (0851055)


ソフトウェア開発企業において,開発プロジェクトに占めるコスト超過プロジェクト(失敗プロジェクト)の件数を少なくすることは損益を抑える上で重要である. 開発プロジェクトの初期段階に現行プロジェクトが失敗プロジェクトかを判別予測モデルを用いて判別することで,資源の配分の見直しなどの対策を講じることができ,開発プロセスは改善される. しかし,プロセスの改善により開発プロジェクトの件数に占める失敗プロジェクトの割合が減少していくと,コスト超過予測の精度は下がってしまう. また,過去の開発プロジェクトのデータに占める失敗プロジェクトの割合はデータセットによって割合は異なっており,それぞれの割合に応じた最適な予測手法はまだ明らかにされていない.

そこで本論文では,コスト超過判別予測に用いる過去の開発プロジェクトのデータに占める失敗プロジェクトの割合を変化させることによって,データの偏りを人為的に作りだし,割合ごとに従来提案されている代表的な4つの判別手法を用いて判別予測を行い,予測精度を出し,比較する実験をした.実験データにはあるソフトウェア開発企業で2001年から2007年まで収集されたリスク項目シートを用いた. 結果として,失敗プロジェクトの件数が約20%を切るとマハラノビス・タグチ法を除く従来法は判別予測精度が下がることが分かった.また,件数がそれ以上であれば,ロジスティック回帰分析が一番高い予測精度を出すことも分かった.