TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Mediaを読んだ
TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Media(Yu Wang,Eugene Agichtein,Michele Benzi(2012))
1.目的
テキストの流れを考慮した LDA である Temporal LDA (TM-LDA)を提案した.次のトピックの分布を予測する.
2.先行研究との比較
LDAだと全体を考慮したものなので遷移を考えるTM-LDAではtwitterのデータに対してはPerplexityは高まるから使えるよ的なあれ
3.技術や手法
ストリームデータにおいて,t期の topic distribuion とt+1期の topic distribuion の間で 遷移が起こるとし,行列をかけあわせてfutureのtopic distributionを予測する
遷移の行列はパラメータとして入力データによって更新される
4.検証
twitterデータを利用してユーザ別に7日間のデータでTM-LDAをかける.そこでできた遷移行列を求め,8日目のtopic distribution を予測する.
暇があったら使ってみたいがツイの収集やってみたいね
https://github.com/lintool/twitter-tools
5.議論
L1ノルムだけでもいけるのかな的な話
他のデータセットに活かせるのか?
一つの例としてYahoo知恵袋のようなforumのQuestionに対して良い回答を特定する
6.感想
僕の場合LDAに関する知識欠如がやばいのでその辺をどっかで
トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)
- 作者: 佐藤一誠,奥村学
- 出版社/メーカー: コロナ社
- 発売日: 2015/03/13
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (5件) を見る
LDAの理論
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
こういう理論研究できる人間強いなあとずーっと思ってる...