でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

Label propagationとLabel spreading

グラフベース半教師あり学習 (SSL) のLabel propagation (LP) とLabel spreading (LS) の違いを説明している文献があまりなかったのでそれについてちょっと書いてみる。SSL自体とかLP、LSについては以下の記事にまとめた文献がいい感じなのでそちらを参照。 …

Semantic Stability in Social Tagging Streams (WWW'14) を読んだ

WWW14から。次のWWW15はイタリアフローレンス!参加したい! 概要 Social tagging systems(FlickrとかDeliciousとか)においてリソース(Flickrなら写真、DeliciousならWebページ)に付けられたタグがどのように "Stable" になっていくかを分析。 Social ta…

Detecting Campaign Promoters on Twitter using Markov Random Fields (ICDM'14) を読んだ

ICDM14からもう一本。一度も参加したこと無いけど来年は参加してみたいな。 概要 TwitterからCampaign Promotersを検出する。Campaign Promotersってのは企業によるマーケティングやら政府による何らかのキャンペーンとかをやってるTwitterアカウントのこと…

scikit-learn準拠の学習器を作ってgrid searchとかcross validationする

Python Advent Calender 2014の19日目。 scikit-learnに準拠した学習器を自分で実装してscikit-learnに実装されているgrid searchとかcross validationを使えるようにするお話。Pythonの話というか完全にscikit-learnの話なんだけど、まあいいよね。 scikit-…

Collective Prediction of Multiple Types of Links in Heterogeneous Information Networks (ICDM'14) を読んだ

ICDM14が始まったので興味ありそうな論文をいくつか読んでみようと思う。 概要 色んな種類のノード、エッジがあるネットワーク(Heterogeneous networks)においてリンク予測をする。 論文中で例に挙げられてたネットワークのスキーマ(論文中Fig.2を引用)…

グラフのエッジリストから次数分布等をプロットするスクリプト書いた

グラフのデータを手に入れたらまずは次数分布をプロットするのが定石だけど、なぜか毎回毎回実装しなおしててアホだったから反省してちゃんと書いた。 次数分布とそのCDF、CCDFをプロットする。 要Numpy, Scipy, Matplotlib, Networkx。 使い方 言わずと知れ…

半教師あり学習のモデル仮定

Machine Learning Advent Calendar 2014の12日目。 最近半教師あり学習に興味があってちょっと勉強してみたのでそれについて書いてみる。自分が勉強した時に読んだ文献も下の方に書いたのでもし興味があれば。 半教師あり学習はラベル付きデータに加えてラベ…

Spatio-Temporal Dynamics of Online Memes: A Study of Geo-Tagged Tweets (WWW '13) を読んだ

この辺かなり興味があるトピックなのになぜかこの論文を見落としていたので読んだ。読んでみた感想は正直いって直感的な結果の羅列であまりおもしろくなかった。たださすがWWWで、データの規模は半端ないし、実験もちゃんとやってる印象はあった。まぁ知って…

CIKM2014で発表した

CIKM2014で発表してきた。タイトルは "Online User Location Inference Exploiting Spatiotemporal Correlations in Social Streams" 。質疑終わった後もオフラインでけっこう質問もらえていい感じだった。国際会議の醍醐味ですね―。あとで「お前の過去の論…

CIKM2014五日目

CIKM2014最終日。今日はワークショップとチュートリアルのみ。 午前と午後でチュートリアルを1つずつ聞く予定だったんだけど、午後のDeep learningのチュートリアルが満席で見れなかった。残念。大きい部屋使ってるワークショップがガラガラだったから部屋…

CIKM2014四日目

CIKM4日目。本会議の最終日。 今日は一番楽しみにしてたJeff Deanのキーノートがあった。さすがすごい面白かった。うわー、Deep Learningすげー、手出さんとこーって思った。Baiduの人はインダストリーセッションなのに延々とSGD(確率的勾配降下法)の高速…

CIKM2014三日目

CIKM2014三日目。本会議二日目。 キーノートとインダストリートーク二つ聞いたけど、どこもかしこもKnowledge Graph!って感じだった。この前のKDDでもそうだったけど、すごい流行ってるな。みんなWebからエンティティを抽出しましょう!エンティティをつな…

CIKM2014二日目

CIKM2014二日目。今日から本会議が始まる。 正直なところ、国際会議ですべきことは個々の論文発表を聞くことじゃないと改めて痛感した。20分間発表聞くなら論文のイントロとまとめ読んだほうがいい気がした。口頭発表でアルゴリズムの詳細の説明をしないでく…

CIKM2014一日目

CIKM2014に参加中。今日はワークショップとチュートリアルの日。本会議は明日から。 ワークショップとチュートリアルはどれに出るのが一番いいのか未だにわからない。自分の分野に近いチュートリアルに出て最新の状況とか確認するのがいいのか、直接は関係な…

自分がふぁぼったツイートをランダムに表示するスクリプト書いた

スライド作りが進まないから現実逃避してちょっとしたスクリプトを書いて遊んだ。題して「自分がふぁぼったツイートをランダムに表示するスクリプト」 モチベーション 自分は後で読む的な意味合いでツイートをふぁぼるんだけど、例のごとく「後で読む」はど…

研究発表の軽視文化

アウトプット重要とか言いながらまだ何も書けてない。来週のCIKM2014に向けて発表資料を作ってるんだけどどうも気が乗らなくて全然進まない。どうしても勉強したり論文読んだりしたくなってしまう。んでなんでそんなに気がのらないんだと考えたら国際会議で…

アウトプット超重要

もう幾度と無く言われてきてることだけどやっぱり何かをアウトプットするのって最重要。研究者なら論文を書くとか、開発者ならGithubになにかプロダクトを上げるとか、人前で何かをプレゼンするとか、思ったことをブログに書くとか、友達と話すとか、とにか…

Who Says What to Whom on Twitterを読んだ

古いけどWWW2011で発表されていた"Who Says What to Whom on Twitter"をちらっと読んでみた。論文はここから 第四著者にはかの有名なダンカン・ワッツが名を連ねていてそれだけで読む価値あり的な空気を醸し出している論文 概要 Twitterでの情報の流れのデー…

The Bursty Dynamics of the Twitter Information Network (WWW'14)を読んだ

StanfordのJure Leskovec関連の論文The Bursty Dynamics of the Twitter Information Networkを読んだ。 ファーストではないけどウェブ系の研究のトップ会議のWWWに4本も通しててもう何が何やら・・・。論文はここから。PDF 概要 Twitter上でのリツイートに…

Make It or Break It: Manipulating Robustness in Large Networks(SDM'14)を読んだ

研究室の教授がこれは面白かった!って言ってたからSDM'14に出てた論文Make It or Break It: Manipulating Robustness in Large Networksを読んだ(論文はタイトルでググればPDFが出てきます)。採択論文リストはここから。SDM14 Accepted Full Papers 概要 …

ピッツバーグで暮らす

いろいろとあれがあれしてアメリカのピッツバーグにあるカーネギーメロン大学で一年間研究することになった。そろそろ二週間くらいになるけど、ピッツバーグで暮らし始めてから色々と大変だったから今後ピッツバーグに来る人のためにちょっとメモ。 ピッツバ…

ボックスカウント法でフラクタル次元を計算

いろいろ調べてたら楽しくなってきたから実装してみた。やっぱりフラクタルには夢が詰まってると思う。実装はGithubにあげてみた。 yamaguchiyuto/fractal · GitHub まとめ ボックスカウント法でコッホ曲線、シェルピンスキーのギャスケット、直線、点のフラ…

KDD2013読み会に参加してきました

@y_benjoさん主催のKDD2013読み会に参加してきました。 KDD2013読み会 : ATND 会場はいまをときめくGunosyのオフィス(Gunosyの皆様ありがとうございました)。 次がアレば何か発表させてもらおう。 Confluence: Conformity Influence in Large Social Netwo…

SIGMOD2013勉強会で発表してきました

DB系トップ会議の論文を一日で一気に紹介し尽くすというdbreading、今回はSIGMOD2013勉強会でした。 データベース勉強会Wiki - SIGMOD2013 The 2013 ACM SIGMOD/PODS Conference: New York, New York, USA - Welcome 僕が担当したのはsession 8のsocial medi…

PFIセミナー見た

初めてPFIセミナー見たからせっかくなのでメモ 今日は吉田(@oxy)さんによる確率不等式の話 http://www.ustream.tv/recorded/36338093 吉田さんと言えばトップカンファレンスに通しまくってるすごい人http://research.nii.ac.jp/~yyoshida/ http://research…

Towards Social User Profiling: Unified and Discriminative Influence Model for Inferring Home Locationsを読んだ

下の論文を読んで研究室のゼミで論文紹介してみた。Towards Social User Profiling: Unified and Discriminative Influence Model for Inferring Home Locations, KDD 2012論文 Towards Social User Profiling: Unified and Discriminative Influence Model …

The Length of Bridge Ties:Structural and Geographic Properties of Online Social Interactionsを読んだ

下の論文を読んで研究室のゼミで論文紹介した。The Length of Bridge Ties:Structural and Geographic Properties of Online Social Interactions, ICWSM, 2012論文 The Length of Bridge Ties: Structural and Geographic Properties of Online Social Inte…

次数中心性からPageRankからまた次数中心性

ノードの中心性はネットワーク分析をする上でとても重要です。例えば、TwitterやFacebookでは中心性の大きい人は他の人に対して大きな影響を与えると考えられますし、Webで中心性の大きいページは重要な情報を含むページであると考えることができます。今読…

Networks: An Introduction読んでる

Newman*1のNetworks: An Introduction読んでる。Networks: An Introduction作者: M. E. J. Newman出版社/メーカー: Oxford Univ Pr (Txt)発売日: 2010/05/20メディア: ハードカバー購入: 1人 クリック: 19回この商品を含むブログを見る Networks: An Introdu…

WWW2012勉強会で発表してきました

毎度おなじみDBReading。今回はWWW2012勉強会でした。 http://qwik.jp/dbreading/56.htmlWWWはWeb系のトップカンファレンスで、名だたる大学や企業研究所がばしばし論文を出してます。 その論文たちを一日で全部紹介してやろうってのがWWW2012勉強会の趣旨で…