でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

Towards Social User Profiling: Unified and Discriminative Influence Model for Inferring Home Locationsを読んだ

下の論文を読んで研究室のゼミで論文紹介してみた。

Towards Social User Profiling: Unified and Discriminative Influence Model for Inferring Home Locations, KDD 2012

論文

この論文は最近流行ってる(?)Twitterユーザの居住地推定の決定版!って感じですね。


キーアイデア

ごく一般のユーザは近くのユーザからフォローされやすいけど、有名なユーザは遠くの人からもフォローされやすいよね!

っていう超シンプルなもの。


居住地推定をする論文は大体「フォローしてるユーザ同士(片方向でも双方向でもいい)は近くに住んでる」っていうアイデアを基にしてるんだけど、それは必ずそうなってる訳じゃなくて、もちろん「フォローしてても遠くに住んでる」場合がある。

そんでそれは居住地推定をする上でノイズになっちゃうから困ったなあって感じだったわけですね。

そこでこの論文は上記のキーアイデアを使ってそのノイズを除去してます。
「フォローしてても遠くに住んでる」のはなぜか?と考えた時に、それはどうやら「有名な人をフォローしてるから」らしいです。有名な人はひろーい範囲にその名前をとどろかせてるから遠くのユーザからもフォローされるっていうことです。

例えばごく一般的なユーザである僕をフォローしてる人は大体僕の居住地の近くに住んでるわけですが、超有名ユーザであるレディー・ガガをフォローしてる人は別にレディー・ガガの近くに住んでるとは言えないですね。



イデアもシンプルならモデルもシンプルなのがこの論文のすごいところ。

各ユーザの居住地と有名度合いをガウシアンでモデル化して、観測されたTwitterグラフ(ユーザのフォロー関係と、ユーザが何をツイートしたかという関係)が得られる確率、つまり尤度を最大化するようにガウシアンのパラメータを推定するだけ。

やっぱりこういうシンプルだけど問題をうまく解けている論文が評価されて欲しいですね。
この論文は読んでて久々に感動した論文でした。