学習データの時間的変化に伴う\\欠陥モジュール予測精度の評価

内垣 聖史 (1251017)


本研究は,欠陥モジュール予測モデル構築のための学習データとして,いつの時点のスナップショットを利用するのが適当かを明らかにすることを目的とする.

近年,ソフトウェアの大規模化に伴い,網羅的なテストを行うことは予算,納期の両面で困難となっている.そこで,ソフトウェアの品質向上及びテストの効率化に向けた取り組みとして欠陥モジュール予測に関する研究が盛んに行われている. ただし,従来,予測モデルの学習データとして利用するスナップショットの計測時点についてはほとんど研究されておらず,通例として前バージョンの開発終了時点のスナップショットが利用されている.

本論文では,開発途中のスナップショットを学習データとして利用する2種類の欠陥モジュール予測実験を行った.1つ目の実験では学習データと評価データ(予測対象)の計測間隔と予測精度の関係について明らかにした.2つ目の実験では,学習データとして複数時点のスナップショットを利用することで,より高い精度を得られるか否かを明らかにした.

本発表では,検証実験の結果及び考察結果について述べ,欠陥モジュール予測においていつの時点のスナップショットデータを用いるのが適当かを示す.

The goal of this study is to clarify when we should measure snapshot data as fit data.

Recently, for improvement of test efficiency and software quality, there are many researches about fault module prediction. In those researches, the measurement point of fit data for building a prediction model has not been considered. And, usually, snapshot data at the end of development for the previous version has been used as fit data. However, it can be used snapshots of the development stage as fit data when adopting iterative development model.

In this study, I did two experiments that use snapshots of the development stage as fit data. The purpose of the first experiment was to investigate the relationship between prediction accuracy and measurement interval of two data (fit data and test data). The purpose of the second experiment was to reveal whether to use multiple snapshots as fit data.

In this presentation, I indicate a result of exmperiments and show when we should measure snapshot data as fit data.