Predicting the Demographics of Twitter Users from Website Traffic Data (AAAI'15) を読んだ

AAAI2015のOutstanding paper award honorable mention。発表聞いた時は何でこれが賞とったのかな？と思ったけど実際論文読んだら結構面白かった。

概要

Twitterユーザのいろいろな属性（年齢、性別、人種、収入、学位、子持ち）を推定する。面白いのはQuantcastのデータを使うところ。QuantcastはあるWebページに訪れる人の年齢とか性別とかの割合を出してる。例えば「LinkedInに訪れる人達の何％は男性です」とか。ここから得られるWebページとTwitterのアカウントを結びつけて、それをフォローしてる人たちの属性を推定する。

具体的には、「あなたはespnとwiredをフォローしてるから男性ですね？」とか、「あなたはPlayStationとsteam_gamesをフォローしてるから18-24歳ですね？」とかいう推定をする。

Research questions

Twitterユーザの属性はQuantcastのデータから推定できるか？
あるユーザの属性を推定するのにどれくらいの数のfriends（フォローしてるユーザ）が必要か？

提案手法

Quantcastから取ってきたWebページに関する情報と、Twitterアカウント (A) とを結びつける。
- Quantcastからは例えば「LinkedIn -> {男性:60%, 女性:40%, 18-24歳: 20%, 24-34: 30%, ...}」みたいなデータがWebページに対して一つ得られる。
得られたTwitterアカウント (A) それぞれについて、特徴ベクトル (neighbors vector) を構成。
- (A) をフォローしてるユ―ザがフォローしてるユーザを取得。つまり、(A) のフォロワーのfriendsの集合。これベクトルで表し、neighbors vectorと呼ぶ。neighbors vectorは、(A)に含まれるユーザのフォロワーが平均的にどんなユーザをフォローしてるかを表す。
neighbors vectorを入力として、Quantcastから取ってきた情報を出力する回帰モデルを作る。
- 入力のneighbors vectorが高次元なのと、たくさんある出力を同時にモデル化したいため、Multi-taskのElastic netを使ってる
作ったモデルで学習した結果として、係数βikが得られる。
- 係数βikの値は、ユーザ i をフォローするユーザが属性 k である度合いみたいなのを表す。
この係数βikを用いてユーザの属性を推定する。
- ユーザ j の属性を推定したい時、j がフォローしてるユーザ i についてβikを合計する。その値が大きければユーザ j は属性 k を持つ可能性が高いとする。