医学生物学論文に対する情報抽出

渡邊 賢也 (1751129)


近年、医学生物学論文が日々多く投稿され、人の目では読みきれなくなってきており,機械学習を用いた情報抽出を用いて情報を構造化し必要となる情報を手に入れやすくすることが期待されている.

本研究では、BioCreative V Chemical Disease Relation datasetに対し、固有表現抽出、共参照解析、関係抽出を行い、論文中の特定の情報を抽出する。 医学生物学論文では、多くの関係が文をまたいでおり、文脈から関係を推定する事が必要となる。 また、医学生物学論文に対するアノテーションには専門知識を要するので、学習データが小規模である事が多い。 今回、嬢規模のデータでも固有表現抽出、関係抽出において精度の高く、文をまたぐ関係を抽出することができるモデルをベースにしたモデルを提案する. ベースモデルからの変更点としては,共参照解析モデルを追加し,固有表現抽出モデルの改良を行っている。 医学生物学論文のタイトルと概要文に対し、固有表現を抽出し、全固有表現ペアに対し、共参照解析、関係抽出を行う。 また、BioCreative V Chemical Disease Relation dataset以外のデータセットを用いる事で、精度向上を試みた。