機械学習を用いたWebテキストにおける有害表現の識別

三谷 亮介 (1151102)


Web上における,違法薬物の売買や未成年の売春などの行為は社会的な問題として取り上げられている. しかし,それらの行為は隠語と呼ばれる表現によって巧妙に偽装されることがある. 一般的な単語を隠語として使用した場合,単純なキーワードマッチングだけでは,一般的な語義としての用法が多く検出される. そのために,人間がそれらを確認し,管理を行うことはコストが高い作業である.

このような作業を機械によってサポートするために本研究では,隠語の有害性識別タスクと隠語の発見タスクを提案する. また,これらのタスクに文脈分類の手法を用いて取り組む.さらに,有害な表現を素性として加えることにより分類性能が向上することを示す. 隠語の発見タスクでは,名詞に対して隠語らしさのスコアを与えることで,隠語を効率的に発見可能な手法を提案する.