Eメールアーカイブのクラスタリングによるソフトウェア開発コンテキストの可視化手法

大蔵 君治 (0551022)


ソフトウェア開発において,開発者の多くは過去の経験をうまく活用できておらず,同じ失敗を繰り返しがちである. 同じ失敗を繰り返さないためには,プロジェクトの事後分析が重要であるが,膨大なプロジェクトデータから人の手 によって事後分析を行うことは容易ではない.また,ソフトウェア開発プロジェクトの分析において,記録が義務づ けられているような形式張ったレポートからは直接知ることのできない開発のコンテキストを把握することは分析を 進める上で重要である.本研究では,コンテキストを明らかにするための方法として,Eメールアーカイブを用いた 手法を提案する.本手法では始めに自然言語処理による各メールからの特徴語抽出を行い,次に抽出した特徴語を基 にベクトル空間法による類似度計算,及び計算された類似度とクラスタリングアルゴリズムに基づいたメール内容の 分類を行う.最後に,分類されたそれぞれのクラスタを時系列上へプロットし,他の時系列チャートと組み合わせる ことによりソフトウェア開発コンテキストを可視化する.本研究では,ソフトウェア開発プロジェクト再現ツール "プロジェクトリプレイヤ"に提案手法を実装した.また,実験を行い,本分析手法が実際にソフトウェア開発のコン テキストを抽出可能であることを確認した.