でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

Spatio-Temporal Dynamics of Online Memes: A Study of Geo-Tagged Tweets (WWW '13) を読んだ

この辺かなり興味があるトピックなのになぜかこの論文を見落としていたので読んだ。読んでみた感想は正直いって直感的な結果の羅列であまりおもしろくなかった。たださすがWWWで、データの規模は半端ないし、実験もちゃんとやってる印象はあった。まぁ知ってて損はないかな。

論文

概要

ジオタグ付きツイートに含まれるハッシュタグが地理的にどう伝搬するかを分析した。

データ

  • 2011年1月から2012年10月までに収集した、世界中からの約20億のジオタグ付きツイートに含まれる約3億4000万のハッシュタグ(2700万ユニーク)が対象

  • 地球を10km四方の4946のメッシュに区切った

    • ホントはもっと多いけどハッシュタグ発生の頻度が少ないロケーションは排除
    • それぞれを一つのロケーションとし、そこでのハッシュタグの発生を分析

分析1:Location properties of hashtags

  1. ロケーションごとにどれくらいの数のハッシュタグが発生しているかをプロット。
    • ランクごとにロケーションを並べるとハッシュタグの頻度は指数関数的に減少したが、ランク上位のロケーション(サンパウロとかニューヨーク)は比較的同じくらいの頻度の値だった
  2. 二つのロケーション間の物理的距離をx、ロケーション間で発生したハッシュタグがどれくらいかぶっているか(Jaccard similarity)をyとしてプロット。
    • 距離が大きくなるほどJaccard similarityは小さくなった
  3. 二つのロケーション間の物理的距離をx、片方のロケーションでハッシュタグが発生してからもう片方のロケーションで発生するまでのタイムラグの平均をyとしてプロット。
    • 距離が大きくなるほどタイムラグは大きくなった

分析2:Hashtag propagation

  1. あるハッシュタグの各ロケーションでの発生割合を確率分布とみなし、以下の指標を計算する

    • focus: modeの確率値
    • entropy: エントロピー
    • spread: 重心と各発生地との距離の平均(確率分布は関係ない)
  2. 上記三つの指標のCDF等をプロット。

  3. spreadをx、entropyをyとしてプロット
    • 三つの種類のハッシュタグの存在が示された
      • local interest: spreadもentropyも小さい。完全にローカルでしか発生しないハッシュタグ
      • regional and event-driven: spreadは小さいがentropyは大きい。複数のロケーションで発生しているがそれらのロケーション間の距離は近い -> regional
      • worldwide phenomena: spreadもentropyも大きい。世界中で発生。
  4. 時刻を追ってfocusとentropyがどう変化するかをプロット
    • 最も発生頻度が大きい次期に最もfocusが小さくentropyが大きくなった。これは狭い範囲のみで発生していることを示している。
    • それに2,30分おくれて最もfocusが大きくentropyが小さい時期が来る。これは広い範囲で発生していることを示している。
    • 更にその後は徐々にfocusがまた小さく、entropyがまた大きくなる。また狭い範囲のみでの発生になったことを示している。
    • -> spray-and-diffuse pattern:一度広く伝搬して、その後は元の位置でのみ発生が続く。Youtube videoの地理的伝搬でもこのパターンが見られた*1

分析3:Hashtag-based spatial analytics

  1. 各ロケーションについてfocus, entropy, spreadの関係を分析
    • popular locationはlocal hashtagとglobal hashtag両方についてのfocal pointだった
    • unpopularなlocationはlocal hashtagについてだけfocal pointになった
  2. あるロケーションが別のロケーションにどう影響をあたえるか分析
    • ロケーションiがjに影響を与える:iで初めに発生したハッシュタグがその後にjで発生するという事象が多い
    • ニューヨークは他の多くのロケーションに影響を与えた(early adaptor)
    • College Station(?)は他の多くのロケーションから影響をうけた(late adapter)

感想

全世界で見てるからここまでロケーションの違いがはっきり出るのかな。日本だけとかアメリカだけでやったらどうなるんだろ。 全体的に直感的な結果が多かったけど、分析3-2は面白かった。日本はどのロケーションからも影響を受けないし、影響を与えなそう。

*1:[Brodersen, WWW2012]