視点情報を用いた非母語文章読解における未知語検出

平岡 類 (1551086)


メールやチャット, 手紙や書籍などにおいて, 読み手が文章を読む際, 内容理解を 妨げる様々な要因が生じ得る. たとえば, 読者の語彙には含まれていない未知語の 出現や未知の文法表現は, 理解を阻害する要因となり得る. 特に非母語の文章であ れば, 母語よりも習熟度は低いためこれらの理解度への影響は大きいと考えられる. 読み手が文章に対して十分な語彙力や文法力がない場合には, 知識の差を埋める取 り組みが必要となる. 読み手が学習者である場合は教育者が知識の差を埋める必要 があるが, 学習者が未知であることを正直に伝えないなどの問題があり, 正確な推定 ができない場合がある. そこで本研究ではアイトラッカによる眼球運動計測による, 視点情報を用いて非母語読解時に文章内の未知語を検出する手法を提案する. 従来 手法では, 眼球運動の一種であるfixation (固視) に関連する特徴量と, 大規模語彙 コーパスから計算した単語の希少度を用いて未知語の検出を行っている一方, 自己 ペースの読解中の未知語検出においては検出精度が十分ではないという課題があ る. そこで本稿では, 自己ペースの読解中での未知語検出精度向上のために, (1) 機 械学習の一手法であるSVM の適用, (2) 眼球運動に関する新たな特徴量として最大 注視時間を使用(3) 未知語検出に有効な特徴量の評価を行うことで, 実験的な評価 による従来の識別法と比較を通し, F 値において未知語検出精度の検出率で50.7%, 再現率で61.6% まで改善されることを示した. またSVM を用いて作成した識別器 に対して, (4) 個人のデータに適応する識別を行うこと, (5) 品詞タグを素性に用い ることで, さらに精度が改善される可能性を示した.