Web文書を利用した半教師あり用語抽出
近藤 光正 (0551057)
本研究では,できるだけ少ない人手コストで,分野に特化した用語を抽出する手法を提案する.本手法は,Co-Training(Blum98)の一種であるDL-CoTrain(Collins99)に類似した半教師あり用語抽出手法である.
DL-CoTrainは,用語の内部にある素性と用語の周辺部にある素性に,2分割することでCo-Trainingを実現するが,用語の周辺部にある素性に難がある場合や,事前に用意でき
る特定分野の文書集合が少ない場合など,様々な条件下で手法をそのまま適用することは難しい.
そこで本研究では,少量の用語辞書と特定分野の専門文書集合が事前に与えられている条件下を考える.
本手法は,Webサーチエンジンを利用することにより,事前に与えられた文書集合に関連した文書を多数収集することで,学習の補助となる用語の出現事例を多数獲得する.
さらに,用語の事例の統計的な分布を考慮して作成した確率モデルを使用することで,用語の周辺部からなる素性の効果を高め,先ほど挙げた様々な条件下において頑健に実行可能な半教師あり用語抽出を目指す.