ゼミナール講演

日時: 平成22年4月12日(月)3限 (13:30 -- 15:00)
場所: L1

講演者: 小町 守
題目: グラフ理論的観点からの自然言語処理における弱教師あり学習
概要: 近年機械学習的手法の発達により自然言語処理は大きく発展してきた。人手によって作成されたテキストデータ(コーパス)や辞書などのリソースを用いることによって、高精度の解析が可能になっている。しかしながら、こうしたリソースの作成には高いコストがかかり、マイナーな言語ではリソースが存在しないこともある。また、大規模ウェブデータが利用できるようになり、情報の抽出源としても、解析対象としても重要になっている。人手によるリソース作成コストの削減を目的として、従来自然言語処理ではシードとして与える少数の事例を反復的に増やすことで大規模なリソースを作成できる弱教師あり学習(プートストラッピング手法)が用いられてきたが、ブートストラッピング手法には反復を繰り返すにつれてシードと無関係な事例まで獲得してしまう意味ドリフトという問題があった。そこで、本講演ではブートストラッピングにおける意味ドリフトがグラフ理論的に不可避であることを明らかにし、グラフ理論に基づく2つのアルゴリズムが意味ドリフトの影響を軽減することを示す。また、さまざまなウェブデータに対して弱教師あり学習を適用した結果について述べ、弱教師あり学習の有効性を示す。

ゼミナール I, II ページへ