Semi-Markov Conditional Random Fields を用いた固有表現抽出に関する研究
福岡健太 (0451104)
学習に基づく固有表現抽出手法として、Maximum Entropy Markov Models
(MEMMs)、Support Vector Machines (SVMs) を用いたものや、
Linear-Chain Conditional Random Fields (Linear-Chain CRFs) を用いたものな
ど様々な識別モデルが提案されている。中でもLinear-Chain CRFs は、入力系列に対す
る正しい出力系列と他の全出力系列とを弁別するような学習をするため、系列全
体から最適なパスを見つけることができるという利点がある。
本研究では、Semi-Markov Conditional Random Fields (Semi-Markov CRFs) を用
いた固有表現抽出について述べる。Semi-Markov CRFsは、Linear-Chain CRFs を
拡張したモデルである。
Linear-Chain CRFs は 1 つの観測値に対して 1 つのラベルを付与するが、
Semi-Markov CRFs は、複数の観測値に対して 1 つのラベルを付与する。
これにより、1 つのラベルで 1 つの固有表現を表すことが可能となる。
Linear-Chain CRFs などは、固有表現の開始位置や終了位置を表すチャンクタグ
と呼ばれるものを付与することで固有表
現の範囲を同定するが、Semi-Markov CRFs では 1 つのセグメントが 1 つの固
有表現に相当する。そのため、Linear-Chain CRFs などでは用いることができな
かった、「固有表現の前に何が現れやすいか」、「末尾に何がきやすいか」、
「先頭が...で始まり、末尾が...で終わるトークン列は...という固有表現にな
りやすい」といったより自然な学習ができるものと考える。
Semi-Markov CRFs では、ある長さ以下の全ての部分トークン列に対応す
るセグメントをノードとしてラティスに展開するため、空間計算量が増大する。
特に、文字単位の
解析を行うことが有効な日本語固有表現抽出では、固有表現のトークン数が長く、
ラティスに展開するノードの最大長が膨大になり、それにより空間計算量が増大
する。この問題を解決するため、文節情報を用い、文節長以下の部分トークン列
だけをノードとして用いることでノード数を削減する手法を提案する。日本語固
有表現データを対象に実験し、提案手法が Linear-Chain CRFs より精度の面で
優れていることを示す。
Linear-Chain CRFsやSemi-Markov CRFs では、損失関数と呼ばれる負の対数尤度の和
を最小化することでモデルの学習を行う。
Linear-Chain CRFs において、Altun らは様々な損失関数を比較し、坪井らは損失
関数を混ぜ合わせることで新たな損失関数を定義している。
本研究では、Semi-Markov CRFs における4つの損失関数を示し、Semi-Markov
CRFs における損失関数の混ぜ合わせ手法を提案する。
坪井らと同様の固有表現抽出のデータと、基本句構造同定データにおいて損失関
数の違いによる比較実験を行い、損失関数の混ぜ合わせは、混ぜ合わせる比率を
選択することが難しく、扱いが困難であることを示す。