Spatio-Temporal Dynamics of Online Memes: A Study of Geo-Tagged Tweets (WWW '13) を読んだ
この辺かなり興味があるトピックなのになぜかこの論文を見落としていたので読んだ。読んでみた感想は正直いって直感的な結果の羅列であまりおもしろくなかった。たださすがWWWで、データの規模は半端ないし、実験もちゃんとやってる印象はあった。まぁ知ってて損はないかな。
概要
ジオタグ付きツイートに含まれるハッシュタグが地理的にどう伝搬するかを分析した。
データ
2011年1月から2012年10月までに収集した、世界中からの約20億のジオタグ付きツイートに含まれる約3億4000万のハッシュタグ(2700万ユニーク)が対象
地球を10km四方の4946のメッシュに区切った
分析1:Location properties of hashtags
- ロケーションごとにどれくらいの数のハッシュタグが発生しているかをプロット。
- 二つのロケーション間の物理的距離をx、ロケーション間で発生したハッシュタグがどれくらいかぶっているか(Jaccard similarity)をyとしてプロット。
- 距離が大きくなるほどJaccard similarityは小さくなった
- 二つのロケーション間の物理的距離をx、片方のロケーションでハッシュタグが発生してからもう片方のロケーションで発生するまでのタイムラグの平均をyとしてプロット。
- 距離が大きくなるほどタイムラグは大きくなった
分析2:Hashtag propagation
あるハッシュタグの各ロケーションでの発生割合を確率分布とみなし、以下の指標を計算する
- focus: modeの確率値
- entropy: エントロピー
- spread: 重心と各発生地との距離の平均(確率分布は関係ない)
上記三つの指標のCDF等をプロット。
- spreadをx、entropyをyとしてプロット
- 時刻を追ってfocusとentropyがどう変化するかをプロット
分析3:Hashtag-based spatial analytics
- 各ロケーションについてfocus, entropy, spreadの関係を分析
- popular locationはlocal hashtagとglobal hashtag両方についてのfocal pointだった
- focal point: そのハッシュタグが最も多く発生したロケーション
- unpopularなlocationはlocal hashtagについてだけfocal pointになった
- popular locationはlocal hashtagとglobal hashtag両方についてのfocal pointだった
- あるロケーションが別のロケーションにどう影響をあたえるか分析
感想
全世界で見てるからここまでロケーションの違いがはっきり出るのかな。日本だけとかアメリカだけでやったらどうなるんだろ。 全体的に直感的な結果が多かったけど、分析3-2は面白かった。日本はどのロケーションからも影響を受けないし、影響を与えなそう。
*1:[Brodersen, WWW2012]