CIKM2014三日目 - でかいチーズをベーグルする

CIKM2014三日目。本会議二日目。

キーノートとインダストリートーク二つ聞いたけど、どこもかしこもKnowledge Graph！って感じだった。この前のKDDでもそうだったけど、すごい流行ってるな。みんなWebからエンティティを抽出しましょう！エンティティをつなげましょう！的な話をしてる。アカデミックで流行ってるというよりはインダストリーで流行ってる印象かな。

バンケットはさすが中国ご飯も美味しかったし、いろんなパフォーマンスを見せてくれた。何を見せてくれてるのかあんまりよくわかんなかったけど中国ゴマとかすごかった。よくある国別の参加者数とか論文数は発表されなくて、簡単なトピックごとの投稿数くらいが発表されただけだった。採択率20.9%。今年は少し高いのかな。あとベストペーパーが発表された。賞もらいたいっすねー。

Best paper

"Cross-Device Search," George Montanez (Carnegie Mellon University); Ryen White (Microsoft Research); Xiao Huang (Microsoft Bing)

Best Student Paper

"DFD: Efficient Functional Dependency Discovery," Ziawasch Abedjan (Hasso Plattner Institute); Felix Naumann (Hasso Plattner Institute); Patrick Schulze

ちなみに自分は "Online User Location Inference Exploiting Spatiotemporal Correlations in Social Streams" というタイトルで発表した。質疑の時間もたくさん質問もらえたしその後オフラインでもいろいろ話しかけてもらえたし興味持ってもらえたんじゃないかと思う。

Keynote 2: Big Text: from Names and Phrases to Entities and Relations - Gerhard Weikum (Max Planck Institute)

Knowledge Graph作ろうぜ！的なお話。テキストからエンティティとその間の関係を抽出するお話。コア技術はNamed Entity Recognition & Disambiguation (NERD) 。NERじゃなくて最近はNERDって言うのかな？チェレンジとしてはデータがでかいから高速にやりたいねってのと、あまり登場しないlong-tailなエンティティもうまく抽出したいねっていうのと、短くノイズたっぷりの文書からの抽出は難しいよねっていう三つが挙げられてた。

CIKMでデモもやってたらしいけどSemantic Searchが面白そうだった。

あとはプライバシーの話とか。例えばある人がFacebookで基本情報（住んでる場所とか）と趣味を公開していて、かつPatientっていうサービスで匿名化された基本情報と飲んでる薬を入力してるとき、Googleの検索ログにその趣味とその薬に関する検索をしている人がいたらFacebookとPatientのアカウントが紐付けられてしまって飲んでる薬がバレるよねっていう話。

Industry Session 2: Robust Interpretation and Ranking for Telegraphic Entity-seeking Web Queries - Soumen Chakrabarti (IIT Bombay)

こちらもがっつりKnowledge Graph関係だったけど、Telegraphic queryというクエリにどう答えるかっていう話で面白かった。Telegraphic queryっていうのは検索結果として何らかのエンティティを得たいという意図があるクエリの事。例えば"Washington, first, govornor"というクエリはワシントン州の最初の知事というエンティティを答えとして得たい。

まずクエリの各キーワードをKnowledge Graph内のエンティティに結びつける。これはもちろん一意に決まらないからいくつかの候補とつなげる。そして、それらのエンティティを含む文書を手がかりとして(Corpus evidence)答えとなるエンティティを探す。候補を列挙してエビデンスから答えを絞っていくっていうアプローチはIBMのワトソンと似てるな―と思った。

あとこのタイプのクエリではfromとかat見たいなストップワードが重要だよ―と言っていた。まぁそりゃそうか。NLPの人たちはすぐゴミだといって捨てちゃうけどねー、はっはっはみたいなこと言ってた。

Industry Session 2: Design Principles for Machine Learning at Scale - Alex J. Smola (Google & CMU)

parameterserverの話。どうやったら機械学習を分散処理できるか。基本的に特徴量はメモリに乗らないし、データは多くのディスクに分散して保存されているし、個々のマシンはすぐに壊れる。そういう状況でどう分散処理するか。

この辺の話に疎くてあんまり分からなかったけどパラメータの変化に大きな影響を与えるデータ（例えばKKT条件に大きく違反するデータとか）だけを送るとかしてマシン間のコミュニケーションの量を減らすとかいう話をしてた。あとはどうやってconsistencyを担保するかとか。