本研究の目的は,Web文章(Weblog)から商品やサービスに関する意見情報をその根拠とともに抽出することである.Web上に存在する商品やサービスに関する意見情報には書き手がその商品やサービスを評価しているものなど,主観的な要素が含まれており,抽出を行う対象が明確ではない.そのため意見を抽出するにあたり,意見を何らかの形で定義する必要がある.
意見形を式化して抽出する研究は近年活発に行われてきており,形式化の定義はいくつか存在するが,本論文では意見情報を意見の対象,構成要素,その構成要素の部位,属性,評価というように意見の対象から評価までの階層化された関係の組という形式で意見情報をとらえる. そして,本論文では意見が散在しているWeblogを対象に,分野を限らずに広く意見情報を抽出するのではなく,まずはドメインをレストランに限定して抽出を行う. ここで属性とは,構成要素や部位の側面を表す表現であり,対象を記事で取り上げている対象とする
実際に意見情報をどのような形式で抽出するかを例で示す.
(例) ランチは店Aで牛丼を食べた.ここの肉は味がしっかりしていて美味い.
この文章から次のような意見のパスが抽出できる.
< 店A(対象) : 牛丼(構成要素) : 肉(部位) : 味(属性) : 美味い(評価) >
意見を抽出するにあたって,問題を(a)評価とその評価の対象の関係抽出と(b)評価の対象とその構成要素の関係の抽出の二つの問題に分ける.それぞれの関係を抽出する上で,関係が同一文内に存在する場合は係り受け関係や文の構造などを考慮して抽出することが考えられるが,存在しない場合はそれができないため,抽出するモデルを文内と文間に分けて考える.
本論文では,意見情報を形式化して抽出することを目的とするため,評価値表現を集めた辞書とドメイン辞書を用意し,それを用いて評価や対象,構成要素などを同定する方式を考え,さらにドメインをレストランに限定してドメインに特化した共起情報などの資源を用いて抽出を行う.このようにいくつかの問題を仮定し,ドメインに特化した資源を用いて形式化された意見がどの程度抽出できるのか,逆にどれだけ資源を用意しても抽出できない意見はどのようなものかを分析し,明らかにする.