オタクの何か

オタクがアニソンとか勉強とかいろんなことについてツイ以上に情報を吐き出したい時に使うところです。現場に行ったらその時間だけはその演者を大好きになれ

TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Mediaを読んだ

TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Media(Yu Wang,Eugene Agichtein,Michele Benzi(2012))

1.目的

テキストの流れを考慮した LDA である Temporal LDA (TM-LDA)を提案した.次のトピックの分布を予測する.

2.先行研究との比較

LDAだと全体を考慮したものなので遷移を考えるTM-LDAではtwitterのデータに対してはPerplexityは高まるから使えるよ的なあれ

3.技術や手法

ストリームデータにおいて,t期の topic distribuion とt+1期の topic distribuion の間で 遷移が起こるとし,行列をかけあわせてfutureのtopic distributionを予測する
遷移の行列はパラメータとして入力データによって更新される

4.検証

twitterデータを利用してユーザ別に7日間のデータでTM-LDAをかける.そこでできた遷移行列を求め,8日目のtopic distribution を予測する.

暇があったら使ってみたいがツイの収集やってみたいね
https://github.com/lintool/twitter-tools

5.議論

L1ノルムだけでもいけるのかな的な話
他のデータセットに活かせるのか?
一つの例としてYahoo知恵袋のようなforumのQuestionに対して良い回答を特定する

6.感想

僕の場合LDAに関する知識欠如がやばいのでその辺をどっかで

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

これくらいしか知らんけど図書館とかで借りて読むか...

LDAの理論を最初に出したのはこれ
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
セカンドにAndrew Y.Ng先生おるやん...
こういう理論研究できる人間強いなあとずーっと思ってる