マイクロブログの居住地推定のための日本語方言の形態素解析

西村駿人 (1251081)


マイクロブログ投稿の居住地推定に取り組み,マイクロブログ投稿のための形態素解析性能の向上に取り組んだ結果を発表する.

マイクロブログと呼ばれる短文を投稿するウェブアプリケーションは多くの人に利用されている. 投稿者の情報を抽出する方法はいくつかあるが,位置情報を付与してない投稿者が多いため,多くの投稿の位置情報を得ることができない. 本研究では居住地情報の推定を行い, テキストベースの居住地推定タスクでは各地域の特徴的な単語を用いることが日本語でも有効であることを確認した.

しかし,日本語はわかち書きをしない言語であるため, 単語の情報を得るためには形態素解析を行う必要がある. 現在広く使われている形態素解析手法は形態素解析用辞書を利用したものである. 方言のような各地域に特徴的な単語は, 辞書に登録されていないため単語分割が失敗することや品詞付与に失敗することがある. 形態素解析用の辞書に登録されていない未知語の問題を解決するために,未知語を事前に獲得する手法や未知語を考慮した形態素解析手法が提案されている. しかし,ほとんどは内容語に着目したものであり,方言の機能語の研究は十分に議論されていない. 調査において,方言の機能語が考慮されていないため,解析が誤る例があった. そこで本研究では方言の形態素解析性能の向上に取り組んだ. 方言と共通語の対訳データから,品詞情報がアノテーションされた方言コーパスを構築し,形態素解析の学習に利用し評価を行った. その結果,方言を含む文章の形態素解析の性能が向上した.

本発表では,方言を含む文の形態素解析性能とマイクロブログ居住地推定の結果と分析を行いたい.