MEDLINE文書検索のための文の役割分類

山崎貴宏(0251126)


電子的に扱うことのできる科学・技術論文の増加にともない,効 率的に目的の論文を検索することのできるシステムの需要が高まってきてい る.本研究では,医学・生物学分野の論文データベースMEDLINEに収められ ている論文アブストラクトを対象として,アブストラクトのテキスト構造を 利用した検索システムと,システムを構築する上で必要となる,文の役割ラ ベルの推定について述べる.本論文の目的とする検索システムは,論文の背 景,目的,結論といったアブストラクト中で文の果たす役割を指定すること により,通常の検索語のみを用いた検索に比べて効率的に検索・絞り込みを 行なうことのできるものである.MEDLINEアブストラクト中には,一部, ``構造化アブストラクト'' と呼ばれる,段落の先頭にその段落の果たす役 割を明記しているものがあるが,大多数のアブストラクトはそうではない. この非構造化アブストラクトに対し自動的に役割ラベルを付与するため,構 造化アブストラクトを訓練データとした教師付き機械学習の手法を用いてラ ベル判別器を構築する.ラベル判別器の構築にあたり,文の役割分類に有効 な情報をとらえるため,様々な素性を用い,その効果を調査した.ラベル判 別器によって役割ラベルが付与されたデータに対し,役割を指定した検索を 行なうことのできる検索システムを試作した.