オタクの何か

オタクの戯言

TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Mediaを読んだ

TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Media(Yu Wang,Eugene Agichtein,Michele Benzi(2012))

1.目的

テキストの流れを考慮した LDA である Temporal LDA (TM-LDA)を提案した.次のトピックの分布を予測する.

2.先行研究との比較

LDAだと全体を考慮したものなので遷移を考えるTM-LDAではtwitterのデータに対してはPerplexityは高まるから使えるよ的なあれ

3.技術や手法

ストリームデータにおいて,t期の topic distribuion とt+1期の topic distribuion の間で 遷移が起こるとし,行列をかけあわせてfutureのtopic distributionを予測する
遷移の行列はパラメータとして入力データによって更新される

4.検証

twitterデータを利用してユーザ別に7日間のデータでTM-LDAをかける.そこでできた遷移行列を求め,8日目のtopic distribution を予測する.

暇があったら使ってみたいがツイの収集やってみたいね
https://github.com/lintool/twitter-tools

5.議論

L1ノルムだけでもいけるのかな的な話
他のデータセットに活かせるのか?
一つの例としてYahoo知恵袋のようなforumのQuestionに対して良い回答を特定する

6.感想

僕の場合LDAに関する知識欠如がやばいのでその辺をどっかで

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

これくらいしか知らんけど図書館とかで借りて読むか...

LDAの理論
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
こういう理論研究できる人間強いなあとずーっと思ってる...