Mixture of Topic Models for Analyzing Short Text Documents with User Information

今井優作 (1451013)


In this thesis, we propose a new topic model for analyzing short text documents with user information such as Twitter data. A topic model is a probabilistic generative model for analyzing discrete data such as text documents. In previous work, which applied conventional topic model to Twitter data, all the tweets posted by the same user are aggregated into a single pseudo document, since a tweet is too short to infer topic proportions properly. Although this method can alleviate the sparsity issue, the differences between a user's tweet topics cannot be captured. The proposed model addresses the above issues by clustering a user's tweets according to their topic assignments to their words, where tweets for each cluster have common topic proportions. The proposed model can use more data for inferring topic proportions by aggregating tweets adaptively, and can also have different topic proportions for different tweets of the same user. With the proposed model, a set of tweets for each user is modeled as a mixture of multiple topic proportions. By using Dirichlet Process, we can automatically estimate the number of clusters for each user. We develop the inference procedures based on collapsed Gibbs sampling. We demonstrate the effectiveness of the proposed model with experiments using Twitter data. Furthermore, we extend the proposed model to enable it to capture the dynamics of user interests by incorporating time distributions, and verify whether the proposed model can cluster a set of tweets more accurately by using the time information as side information.

本論文では,Twitterデータのようなユーザ情報をもつ短文書集合の解析のためのトピックモデルを提案する. トピックモデルとは,文書のような離散データを解析するための確率的生成モデルである. Twitterデータに対して従来のトピックモデルを適用した先行研究では,ツイートが非常に短文であるためにトピック分布を適切に推定できないことから,各ユーザの全ツイートを擬似的に1文書として扱う方法を用いている. この方法によりSparsity問題を緩和できるが,ツイート毎のトピックの違いを表現できないという問題がある. これらの問題に対し,提案法は各クラスタのツイートが同一のトピック分布をもつと仮定し,トピックに従ってツイート集合に対してクラスタリングを行う. 提案法では,クラスタリングに応じて適応にツイート集合を文書とすることでトピック分布の推定に多くのデータを用いることができ,同一ユーザのツイートが異なるトピック分布をもつことを可能とする. 提案法において,各ユーザのツイート集合は複数のトピック分布の混合物としてモデル化される. また,ディリクレ過程を用いることによりユーザごとにクラスタ数を変化させることができる. パラメータの推定手順は崩壊型ギブスサンプリングに基づいて展開する. Twitterデータを用いた実験により提案法の有効性を示す. さらに,提案法に対して時間分布を組み込むことでユーザの興味変動を考慮できるように拡張を行い,時間情報がクラスタリングでの補助情報として有効かを検証する.