でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

CIKM2014五日目

CIKM2014最終日。今日はワークショップとチュートリアルのみ。

午前と午後でチュートリアルを1つずつ聞く予定だったんだけど、午後のDeep learningのチュートリアルが満席で見れなかった。残念。大きい部屋使ってるワークショップがガラガラだったから部屋交換してくれればよかったのになぁ。いくら部屋が小さかったとはいえ、最終日でしかもチュートリアルとワークショップしかない日なのに満席になるなんてDeep learningすごい。

Tutorial 4: E-commerce Personalization at Scale - eBay

E-commerceが大事だよー、personalization大事だよーっていう話から始まって、personalizationに関する論文の主な結果の紹介を延々としてた。ちょっと退屈だったからあまり追えてない。最後はSkylineとTop-kについて話してた。

Stats

  • $1 out of $5はオンラインで使われている
  • 8%のretail sales in USはE-Commerce
  • Personalizationは重要なのに70%のブランドはやってない

他にも色々と数字を出してた。さすがeBay、調査してますなぁって感じだった。

Data sources

Personalizationにどんなデータが使えるか。

  • Demographic data
    • gender, age, profile, …
  • Usage data
    • visits, searches, browsing history, transaction histroy, …
  • Physical store location data

Data challenges

こういうデータを使うのに何が難しいか

  • Variations in item quality
  • Unstructured data
  • Sparsity in the transactional data

Objective of personalization platform

Personalization platformをユーザに提供する目的は?

  • ユーザのパーソナルな情報にアクセスできる
    • これが一番の理由だと言っていた。確かに重要。
  • 構築したモデルの評価ができる
  • 複数のデバイスで使えるようにする
  • ユーザそれぞれにクエリのauto-completionとかを提供してresponseを速くする

Search Personalization

既存研究たくさん紹介。多すぎてあまり覚えてない。

  • Personalizationは検索意図がユーザごとにバラバラのクエリについてうまくいく。逆にどのユーザも同じような意図で検索するクエリについては精度が下がることもある。
  • ログとセッション中のリアルタイムのアクティビティとデモグラフィック情報を使ってパーソナライズ
    • ユーザのDemographic baseなPersonalizationはClick basedなものよりうまくいかない。

Database: Top-K, Skyline, and Beyond

Skylineはベクトルの集合があった時に他のどのベクトルからもdominateされないベクトルの集合。ベクトルaがベクトルbをdominateするというのは、aの全ての要素がbの対応する要素以上かつ、最低一つはより大きいこと。例えば、「マンハッタンで値段が安くてかつビーチに近いホテル」というクエリに答える時、他のあるホテルより値段が高くてかつビーチから遠いホテル(Skylineでない)というのは検索結果に含める意味は無い。

"The skyline operator," ICDE 2001

Top-Kは単純にクエリにより合致している結果を上からK件返すこと。

他にもregret minimizationとかuser interactionとかについて話してた。