DOM構造を利用した条件付確率場によるWikipedia文書中の固有表現の意味体系への割り当て
渡邉 陽太郎 (0551137)
本発表では,Wikipedia内に出現する固有表現を獲得し,精度よく分類する手法を提案する.
Wikipediaの記事に出現するアンカーテキストの単語および句は,
リンク先の記事に語釈が記述されている.
この Wikipedia の特性を用いて,我々は,固有表現の分類問題を固有表現を表す
アンカーテキストに対するラベル付与問題として定式化する.
まず,アンカーテキストをノードとして定義されるグラフを構成する.
次に,グラフにHTMLの構造を取り入れるため,HTMLのDOM構造に基づく3種類のエッジを導入する.
このようにして構成したグラフのノードに対するラベル付与を
教師あり学習器である Conditional Random Fields (CRFs)を用いて行う.
しかし,構成したグラフは閉路を含むため,CRFs の正確な演算を行うことは計算量が大きく困難である.
そこで,Tree-based Reparameterization (TRP)を用いて近似的に演算をおこなう手法を導入する.
実施した評価実験において,提案手法が2つ組に対する Support Vector Machines の
順次適用による手法と比較して高い精度で固有表現の分類ができたことを報告する.