でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

CIKM2014二日目

CIKM2014二日目。今日から本会議が始まる。

正直なところ、国際会議ですべきことは個々の論文発表を聞くことじゃないと改めて痛感した。20分間発表聞くなら論文のイントロとまとめ読んだほうがいい気がした。口頭発表でアルゴリズムの詳細の説明をしないでくれ―、頼む―って感じだった。説明するのは解いた問題についてと貢献と基本アイデアだけで十分。それで面白そうと思ったら論文読みますので。。。

明日は自分の発表だから十分気をつけなくては。

今日の当たりはIndustry sessionのLIBSVMの人のトーク。機械学習のソフトウェアと作る時はいかにシンプルに作るかが重要ってことを面白エピソードを交えつつ紹介してた。Simple or dieって感じですかね。座右の銘にしよう。

レセプションはCIKM CUPの表彰だけあって他は何もなく終わった。TsinghuaからCMUの同じグループに来てる人が2nd placeで表彰されてた。$2,000、いいなぁ。

Keynote 1: Organizing the Digital World to Empower Every Person and Organization on the Planet to Do More and Achieve More - Qi Lu (Microsoft)

実世界の物事をどうやって Digital representation に落とすかが重要だという話。テクニカルな話はほぼなかった。何かのDigital representationが得られれば、それについてのobservationを大量に手に入れることができ、対象についてより深く知ることが出来る。例えばfacebookの登場で人々の関わりについての情報が大量に得られるようになったし、TwitterやWeiboの登場で世界中で今何が起きているかという情報を大量に得られるようになった。これを可能にするには以下の三つが重要。

  • Information fabric
    • 対象をどういうデータで表現するか (graph, text, …)。
  • Service fabric
    • serviceをどうデザインするか
  • Interaction runtime
    • UIのこと。ナチュラルなUIが重要だが、何がナチュラルかはコンテキストによる。音声がいつもナチュラルなわけじゃないし、タッチがいつもナチュラルなわけじゃない。

かなりアブストラクトな話で内容が薄かった気がした。まぁKeynoteだしそんなもんなのかな。スライドの文字が重なってたり図が重なって文字が読めなかったり文字が小さすぎたりで終始謝り続けてた。自分でも読めない何を話せばいいか分かんなくなったとか言ってて会場大爆笑だった。

Industry Session 1: Experiences and Lessons in Developing Machine Learning and Data Mining Software - Chih Jen Lin (National Taiwan University)

機械学習のソフトウェアを使うユーザの大部分はほとんど機械学習についての知識がないからソフトウェアはシンプルに作らないとねっていうお話。アカデミックの世界ではそういうのを評価する体勢が整ってない。例えば、精度が少し落ちたがものすごく使いやすいツールを作っても論文は書けないし書いても通らない。でも実際はGood methodというのはある程度精度がいいのは前提としても、パラメータが少ないとか結果にsensitiveじゃないとか、オプションが少ないとか、とにかく使いやすさが最重要。

せっかく精度が高い手法を提案しても使ってもらえないと意味ないよねーと。Reproducibilityのために実験コードを公開したりはするけどそれはあくまで査読者のためであってユーザのためではないことが多い。学生とか若手研究者とかは論文を出さないといけないというプレッシャーがすごいから、使いやすいツールを作ったりするのに時間を割けない。そういうのが評価されるコミュニティだったり、論文を出すプレッシャーがあまりない自由な環境だったりになっていけばいいねッて感じで終わった。

Industry Session 1: Some issues that are often overlooked in big data analytics - Limsoon Wong (National University of Singapore)

みんなビッグデータビッグデータって浮かれてるけどそれを分析する時にいろいろ見落としてる事があるよねっていうお話。IIDを不適切に仮定したり、Sampling biasについて考えなかったり。

Independent (1st I of IID)

  • 集合知は個々の人の考えが独立じゃないと機能しない

Identically Distributed (2nd I of IID)

  • Simpson's paradoxはこの2nd I of IIDの仮定が正しくないから起こってしまう。

Sampling bias (Dewey Defeats Truman)

  • みんなが電話持ってるわけじゃないのに電話でサーベイしたから誤った結果になった。