KDD2013読み会に参加してきました - でかいチーズをベーグルする

@y_benjoさん主催のKDD2013読み会に参加してきました。

KDD2013読み会 : ATND

会場はいまをときめくGunosyのオフィス（Gunosyの皆様ありがとうございました）。

次がアレば何か発表させてもらおう。

Confluence: Conformity Influence in Large Social Networks

@coffee_yoshidaさん

資料：Kdd2013読み会資料「Confluence: Conformity Influence in Large Social Newtw...

SNS上のユーザの行動をモデル化する研究。

あるユーザの行動は他のユーザの行動に影響されて起こったというありがちな仮定をおいているが、それをindividual conformity, peer conformity, group conformityに分けている。individual conformityはあるユーザ自信が他のユーザの行動を真似する割合、peer conformityはあるユーザが他のある特定のユーザの行動を真似する割合、group conformityはあるユーザがあるグループに属すユーザの行動を真似する割合を表す。

結果、この三つのconformityのうち、ユーザの行動に最も影響していたのはgroup conformityだった。

Diversity Maximization Under Matroid Constraints

@tma15さん

資料：Diversity Maximization Under Matroid Constraints (KDD 2013)を読んだ | Now is better than never.

ニュースサイト（GoogleNewsとか）はたくさん記事を配信しているが、似ている記事ばかりあってもユーザは嬉しくない。そこで、ユーザが閲覧するニュースの"diversity"を高めようという研究。

diversityというのはニュース記事の集合があった時にその内容がどれだけ”似ていないか”を表す指標。これを最大にするようなニュース記事の組み合わせを返す問題を解くが、それにmatroid制約というものを加える。

ここでのmatroid制約はあるニュース記事クラスタ（スポーツトピックとか）からp個のニュース記事を選ぶということを数学的に扱うために取り入れる（多分）。

結果、diversityを考慮しない場合よりも（少し）いい感じになった。

会場で議論になっていたのは、diversityの研究はもう何年もされているのにどの論文もdiversityがあるときと無い時を比べていて意味が無い。diversityを取り入れたほうがいいのはもう分かったからdiversityを扱う既存手法と比較して精度が良くなったことを主張しないと意味ないよね。でもdiversityを評価する統一的な指標がまだ出てきてないからそれをまずがっちり決めないとなかなか先に進まないね。ってかんじ。

Density-Based Logistic Regression

@y_benjoさん

資料：KDD2013読み会やった & Density-Based Logistic Regression 読んだ - 糞ネット弁慶

ロジスティック回帰は可解釈性がすごい高いからビジネスの現場とかではロジスティック回帰すごく好まれてるけどSVMとかみたいに非線形分類出来ないしカテゴリカル変数はダミー変数を使わないといけないからちょっと使いづらい。だからロジスティック回帰を使いやすくしてやるからお前らみんな喜べっていう研究。

カーネルとか使っちゃうとなんでそういう結果が得られたか全く説明できないからこの研究ではカーネル使ってない。普通の回帰と同じで各特徴量の重みが結果として得られるからこの値の大きさでどの特徴量が重要か分かる。

細かい部分はちょっとよく分からなかったけどいろいろごちゃごちゃやってた。

Psychological Advertising: Exploring User Psychology for Click Prediction in Sponsored Search

＠Quasi_quant2010さん

ユーザが広告を”なぜ”クリックするかの分析をした研究。

例えばdiscountとかofficialっていう単語が広告に入ってるとユーザはクリックしやすくなる。そんなの敏腕広告主は分かってるけどそれを自動的に抽出してみんなで共有したい。アルゴリズムの中身は割りと単純なきかいがくしゅー。

会場ではこの研究成果をgoogleとかbingとかが導入して、広告主に「こういう単語を入れたほうがCTRあがりますよ」とか言い始めると敏腕広告主は困るよねーっていう議論がされてた。

The Role of Information Diffusion in the Evolution of Social Networks

@ysekkyさん

資料：データマイニング - The Role of Infomation Diffusion in the Evolution of Social Networks (SIGKDD 2013) - Qiita [キータ]

SNSの情報拡散を基にリンク予測をする研究。

今まではtriadic closure（友達の友達は友達っぽい）とかがリンク予測にはよく用いられていたけど、情報拡散使えば精度上がるんじゃない？っていう発想。

Twitterの文脈で説明すると、あるツイートがリツイートで伝搬するとき、それを受け取ったユーザ達はそのツイートを投稿した元の人（origin）とか、伝播経路の上の方にいる人達（groundparent）をフォローしやすい。これをshort cutと呼んでいた。

Twitterだとリツイートの経路の情報は取れないけどこの研究を指定たYahooの人たちはYahoo自前のSNS（もう駆逐されたらしい）を使っていて、そのSNSではリツイートの経路がとれたから（まぁ自分たちのサービスだから当然）この研究ができた。

Direct Optimization of Ranking Measures for Learning to Rank Models

@sleepy_yoshiさん

ランキングの良さの評価指標（NDCGとか）は非連続微分不可だから最適化しづらいけどそれを頑張って最適化する研究。

ランキングの良さ指標はモデルのパラメータをいろいろ変えていくともちろん変化するけど、結局はランキングが変わる点（パラメータを変えたことによってランキングの2位と3位が入れ替わるとか）でしか評価指標は変化しない（NDCGの定義参照）。だからその点だけを見てパラメータを最適化する。

MARTっていうboosting見たいな学習器のパラメータαを学習する。このパラメータはboostingにおける弱学習器の重みに相当。αのうちの一つの値（αはベクトル）をいろいろ変えた時にランキングのchanging pointだけを記録してその中でNDCGが最大になる区間を記録する。そしてまたαの別の値に対してこれを繰り返す。

この手法だとランキング全体としてのNDCGは最大になるけど、全体を最大にするためにあるクエリに対するランキングがぐちゃぐちゃになったりもする。そういうクエリが出てこないようにいろいろ制約を入れたほうが（例えばあるクエリに対するNDCGが閾値を下回らないようにするとか）いいかもねという議論があった。