感情ラベル付きデータ不足問題解決に向けた他データセット使用の有用性

崔井源


レビューテキストの極性やその根拠を解ることは,製品に対するカスタマーの意見を分析するため欠かせないタスクになっている.感情分析のための代表的データセットとしてAmazonデータセットやSemEvalデータセット等がある.しかし,Amazonデータセットの場合,大量だがスコア以外のラベルは付けられておらず,正しく対象語や根拠表現などの感情表現を探し出せたのか評価できない.一方,SemEvalデータセットは文毎に極性や根拠などのラベルがつけられており,感情表現抽出を学習するには便利だが,量が少ないため実際SemEvalデータセットのみを活用するには限界がある.データ量やラベル有無の違いはあるが,感情分析のため作られた異なるデータセットを共に学習に使用することで,お互いに必要な情報の埋め合わせが可能になるかもしれない.以上の仮説を確認するため,文毎に極性と根拠となるカテゴリラベルが付与されているSemEvalデータセットを用いてテキスト分類タスクに取り組む際,近いドメインに属しているがレビュー毎スコアラベルだけが付与されているAmazonデータを使用し,僅かだが性能の向上を確認することができた.また,本研究の目的はstate-of-the-artを記録するのではなく,感情分析においてデータ不足問題解決のための手法として,大量の他データを共に学習に使用することの有用性を確認することである.