| ゼミナールI講演 |
|---|
| 日時: | 平成24年5月14日(月)3限 (13:30 -- 15:00) |
|---|---|
| 場所: | L1 |
| 講演者: | 中谷 秀洋(サイボウズ・ラボ株式会社) |
|---|---|
| 題目: | ∞-gram による短文言語判定 |
| 概要: | 言語判定は多くの言語処理の前提タスクとなりうるので、非常に高い精度が要求される。十分な長さを持つノイズの少ない文書に対しては、文字3-gramモデルによって99%以上の精度で判定できることが以前から示されていたが、twitterのような短くノイズの多いテキストについては95%前後の精度でしか判定出来なかった。そこで極大部分文字列を使った∞-gram ロジスティック回帰と、twitterや各言語に即した正規化処理を組み合わせることにより、ラテン文字言語19言語について99%以上の精度で言語判定する手法について紹介する。 |