Visualizing Words and Documents for Revealing Multisense Words

近藤 雅芳(1351044)


Data visualization is to represent an observed data in high dimensional space as points in a two or three dimensional space in a condition to preserve the features as well to as possible. It can help us to easily understand the features and the structure property which lies hidden behind the data. For instance, in the case of text data, these features indicates
the relativeness between documents, frequently-appearing words or common characteristic, namely topics. In this thesis, we will propose the novel model called as Stochastic Multisense Embedding, which can not only visualize words and documents but also jointly extract multisense words in the text data. In this model, both words and documents are assumed to have latent coordinates in a two or three dimensional Euclidean space or visualization space. It is also assumed that Multisense words are embedded as different coordinates every meanings of a word in the visualization space. According as these assumption, We model the process that these coordinates generates words and documents. The parameters, namely the coordinates, are estimated by means of the Variational Bayes inference, and thus a text data can be visualized. In the experiments, we demonstrate the effectiveness of the proposed model by quantitatively comparing the visualization of our model with that of conventional visualization models through the use of some text data sets, and show that it can also extract multisense words in text data.

情報可視化とは、観測される高次元データに対してその特徴をできるだけ保存した状態で2次元もしくは3次元空間上にデータを表現することである。情報可視化により、我々はデータに潜む特徴や構造的性質をより容易に理解することが可能になる。例えば、文書データに対しては文書間の関連の深さや頻出用語あるいは共通するトピックなどの理解を容易にする。本論文では、文書データから多義語の抽出と文書・単語の可視化を同時に実現する新しい可視化法(SME)を提案する。提案法では、各文書及び各単語が低次元ユークリッド空間上に座標を有すると仮定する。また、多義語は空間上に語義毎に異なる座標として配置される。これらの座標に従って文書及び単語が生成される過程をモデル化し、変分ベイズ推論により座標パラメータを推論することで文書データを可視化する。実験では、実データを用いて従来の文書可視化法と可視化精度比較を行い、提案法が従来法に比べ優位であることを示すと同時に多義語の抽出も可能であることを示す。