工数予測における欠損値処理法の比較

田村 晃一 (0751077)


ソフトウェア開発において,開発中もしくは将来のプロジェクトの計画立案や管理を目的として,重回帰モデルを利用した開発工数の予測が広く行われている.一般に,モデル構築に使用するプロジェクトデータには未記録の値(欠損値)が存在するため,モデル構築を行う前に,欠損値を何らかの値で補完する(欠損値補完法),もしくは,欠損値を含むメトリクスやプロジェクトを削除することで欠損値を含まないデータセットを作成する(無欠損データ作成法)といった欠損値処理が必要となる.ただし,いずれの手法がプロジェクトデータに適しているかは従来明らかにされていない.本研究では,複数の企業で収集された706件(欠損率47%)のプロジェクトデータに対し,4つの欠損値補完法(平均値挿入法,ペアワイズ除去法,k-nn法,CF応用法)及び,無欠損データ作成法を適用し,重回帰モデルの構築を行った.各手法の予測精度を評価するために欠損値を含まない別の143件のプロジェクトの工数予測を行った結果,類似性に基づく補完法(k-nn法,CF応用法)を用いる場合に高い精度のモデルが構築されることがわかった.