辞書を利用してテキストコーパスに含まれる固有表現のマッチングを行うことで,人手のアノテーション無しに,固有表現認識の学習データを自動生成できるDistant Supervisionが注目されている.これらのモデルはマッチングしなかった全トークンに一般用語ラベルを付与する.しかし,一般的に,辞書が全ての固有表現を網羅するのは困難であるため,マッチングしなかったトークンを無視することはFalse Negativeラベルを生む問題がある.本稿では,このようなFalse Negativeを含むアノテーションデータを「不完全データ」と呼ぶ. 「不完全データ」の固有表現認識に関する従来研究の多くは,ラベルが1つに定まらないトークンに対して,可能性のあるラベル候補全てをトークンに付与し,ラベル候補の確率分布を学習する.特に,本研究のベースモデルは,ラベル候補の最適な確率分布をk分割交差検証で求め,従来研究を上回る性能を出した.しかし,依然としてベースモデルには,3つの課題がある. 1つ目の課題は,確証バイアスによるノイズ伝播である.系列ラベリングの学習とノイズ緩和処理を同一プロセス,かつ同一情報資源で行なっており,学習初期段階で生じたノイズが学習後半まで伝播する問題がある.2つ目の課題は,RecallとPrecisionのトレードオフ問題である.不完全データでの学習において,ベースモデルは従来手法と比較して,Recall は大幅に向上し,完全データで学習した従来手法のRecallに迫る高い値を出している.しかし,Precisionに関しては,従来手法よりも低下している.3つ目の課題は,専門用語の単語集合のうち,評価データの対象とする固有表現集合は一部に過ぎない問題である.ベースモデルのFalse Positiveは,文脈情報と文字情報の観点では専門用語だが,評価データの対象とする固有表現ではない場合が多い.この問題を上記の素性のみで解くことは困難である. 提案手法では,辞書と不完全データを有効活用し,ベースモデルのRecallを保持しつつ,Precisionの改善を試みた.実験結果より,提案手法はRecallを保持しつつ,Precisionを改善でき,さらには,ゴールドデータで学習した場合のモデル性能に迫る認識性能を示せた.