でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

CIKM2014で発表した

CIKM2014で発表してきた。タイトルは "Online User Location Inference Exploiting Spatiotemporal Correlations in Social Streams" 。質疑終わった後もオフラインでけっこう質問もらえていい感じだった。国際会議の醍醐味ですね―。あとで「お前の過去の論文読ませてくれ」っていうメールも来た。嬉しいね。

Web上(ソーシャルメディアも含めて)のリソースの位置情報に関する研究はかなり流行ってる印象。今回のCIKMでもLocWebっていうワークショップも開かれてた。自分が今回扱ったソーシャルメディアユーザの位置推定だけに限っても下に挙げるようにかなりたくさんの論文が発表されてる(まだまだある)。

論文

概要

ソーシャルメディアのユーザが投稿したコンテンツを使って、そのユーザの住んでる場所を推定するアルゴリズムを提案。既存手法はたくさんあるけど、どれも コンテンツのストリーム的性質時間的特徴 を考慮してない。ストリーム的性質っていうのはコンテンツが絶え間なく逐次投稿されるっていうこと。時間的特徴っていうのはコンテンツが投稿されたタイムスタンプ。提案アルゴリズムはこれら二つを考慮することで 低コストのオンライン学習高精度 を実現した。実験で使ったデータはTwitterだけだけど、ユーザがテキストを投稿する形態のソーシャルメディアならなんでも適用可。

基本アイデア

すごく単純。ユーザが「うわ地震だ」とか、「すごい雷なってる」とかツイートした時、そのユーザは今起きてる地震とか雷の近くに住んでるというアイデア地震とか雷じゃなくても実世界のどこかで起きてる出来事ならなんでもOK。例えばどこかの地域でやってる花火大会とかから居住地が予測できたりした。キーポイントは外部の情報(気象庁地震情報とか花火大会の日程)は一切使ってないこと。ある地域に住んでるたくさんのユーザが突然同時多発的に「地震」ってツイートし始めたらその辺で地震が起きたと考える。 イベント検出と位置推定を同時に解いてる 感じ。

オンライン学習についてはDirichlet Compound Multinomialによるベイズ推定。詳細は論文。

既存研究

ソーシャルメディアユーザの居住地推定をする論文がたくさんある。有名どころを挙げてみる。これだけ読めば参入可能!!多分!!

コンテンツベース

ユーザが投稿したコンテンツを使って推定

  • "You are where you tweet: a content-based approach to geo-locating twitter users," CIKM2010
  • "A latent variable model for geographic lexical variation," EMNLP2010
  • "Tweets from justin bieber's heart: the dynamics of the location field in user profles," CHI2011
  • "Discovering geographical topics in the twitter stream," WWW2012

グラフベース

ソーシャルグラフにおけるユーザ間のつながりを使って推定

  • "Find me if you can: improving geographical prediction with social and spatial proximity," WWW2010
  • "That's what friends are for: Inferring location in online social media platforms based on social relationships," ICWSM2013
  • "Where's @wally?: a classifcation approach to geolocating users based on their social ties," HT2013

両方ベース

  • "Towards social user profling: unifed and discriminative infuence model for inferring home locations," KDD2012
  • "Multiple location profling for users and relationships from social network and content," VLDB2012

結果

  • 上に挙げた既存研究(他にもたくさん)と比較して低コスト、高精度を実現した。
  • どんな単語が位置推定に役立つかを定量的に示した。
    • 地名は基本的に役立つけど「東京」とか全国から言及されるようなものは役立たない。
      • もっと言うと、「北海道」とかは普段は位置推定に役立つけど、全国ネットで北海道に関するニュースが流れた時とかは全国から言及されるようになるから一時的に役立たなくなる。
    • イベントに関する単語「地震」「雷」「花火」とかはそれが発生している時は位置推定に役立つけど普段は役立たない。
    • 人間が見て意味がわからない単語(顔文字とか)でも役立つものがある。
      • 例えば地震が起きると「((((;゚Д゚))))」っていう顔文字を投稿する人が多くて、これが手がかりになって居住地を予測できたりした(すごく面白い)。