固有表現抽出を用いたソースコードコメント上の文献引用検出

井ノ口 輝 (1751012)


ソフトウェア開発に置いて,開発者がどのような知識を利用しているか把握することは重要である.知識の重要な情報源として文献が挙げられ,開発者はソースコードコメント上で文献を引用し,知識を共有している.文献の引用を把握するためには,膨大な量のコメントを目視などで調査する必要があるため,把握は容易でない.このため本研究は文献の引用を含むコメントの機械的な検出に取り組む.文献の引用を検出するために自然言語処理の手法である固有表現抽出を用い,文中に含まれる文献引用固有の表現を抽出する.抽出された固有表現は文献のタイトルや著者名などに該当するが,文献引用と無関係な人名を著者名と誤検出することが少なくない.このため,コメントからどのような固有表現が抽出できた場合にコメントに文献引用が含まれるかを判定する条件について検討し,評価する.この結果,抽出できた固有表現の量と種類に注目することで高い検出能力を達成できると確認した.