医学生物学文献からの専門用語の抽出と分類

合原 博 (9851036)


本研究は医学生物学分野の論文要旨中の名詞句を抽出し,それらを意 味に応じたクラスに分類する方法について論ずる.名詞句の抽出には単語品詞列 のパターンマッチングによる手法を用いる.分類にはパッケージソフトC5.0によ る決定木学習を用いる.また,主辞の単語や用語の構成に関する名詞句内部の情 報だけではなく,その名詞句に係ってくる文節およびその名詞句が係っていく文 節の情報といった係り受け情報も名詞句の分類に利用する.そして,名詞句内部 の情報と係り受け情報を属性とする二種類の決定木を作成し,Co-trainingを利 用した未知データからの学習を行う.

始めに本研究の背景について述べる.次に本研究に必要な正解コーパスの作成に ついて述べ,そこから分かる問題点を挙げ,本研究に先行研究が適用できるか否 か検討する.名詞句の抽出,名詞句の分類,未知データからの学習についてそれ ぞれ結果を述べる.