Web上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Webフィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本研究では表記ゆれ表現が含まれる入力文から抽出したい語(キーワード語)を同定するために,
1.入力文からあらゆるよみがな候補を生成
2.ひらがなで記述したキーワード語の辞書と比較し,マッチする語を抽出
3.マッチした部分を単語として抽出することの,文としての妥当性を形態素解析器を用いて行う
というを提案し,その効果について検討を行った.
実験の結果,入力文に対してよみがな候補を作成し,形態素解析を行うことで高い精度でキーワード語を同定できることが確認された.