小規模な辞書と大量のテキストデータを使用した専門用語抽出

縄田浩三 (0251084)


本論文は、低コストで頑健に専門用語を抽出する方法の提案と実験的評価を記し たものである。こうした低コストな専門用語抽出に、従来人手で構築された少量 の専門用語リストと大量のテキストデータを利用して、専門用語を抽出するための規 則を自動的に取得し、そして専門用語を取得する手順をとってきた。そして、そ の取得した専門用語を専門用語リストに加えることで、新たに専門用語の抽出規則を取得 し、専門用語を収集する手法を用いてきた。しかし、こうした手法は専門用語リスト に非専門用語を追加する可能性を持ち、上述の手法を多く繰り返すことができない。 本研究は、この従来の手法にバギングを導入し、専門用語リスト中に非専門用語が存 在しても頑健に専門用語を抽出する手法について提案し、調査するものである。