読者です 読者をやめる 読者になる 読者になる

でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

研究と開発のはざま

博士を取ってからの3年間はアカデミックで仕事をしていたけど、4月から民間企業に移ることにした。転職するかどうかそうとう悩んだわけだけど、その時に研究についていろいろと考えたのでちょっと書いてみたい。 工学では研究と開発の違いなんて無い 誰もが…

Author Topic Model の導出と実装

またまた引き続き青いトピックモデル本から。今回は Author Topic Model を導出して実装してみる。とりあえずこのシリーズは一旦今回で最後。 トピックモデル (機械学習プロフェッショナルシリーズ)作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08…

Noisy Correspondence Topic Model の導出と実装

さらに引き続き青いトピックモデル本から。今回はノイズ有り対応トピックモデル (Noisy Correspondence Topic Model; NCTM) を導出して実装する。 トピックモデル (機械学習プロフェッショナルシリーズ)作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/0…

Correspondence Topic Model の導出と実装

引き続き青いトピックモデル本から、対応トピックモデル(Correcpondence Topic Model; CTM)を実装した。サンプリング式の導出が詳しく載っていなかったので、詳しめに導出してみる。 トピックモデル (機械学習プロフェッショナルシリーズ)作者: 岩田具治出…

Joint Topic Modelを実装した

LDAの簡単な拡張になっている Joint Topic Model を実装した。青いトピックモデル本で紹介されてた。この本はいろんなモデルが載ってるのでいいね。 トピックモデル (機械学習プロフェッショナルシリーズ)作者: 岩田具治出版社/メーカー: 講談社発売日: 2015…

Robust Large-Scale Machine Learning in the Cloud [KDD'16] を読んだ

KDD16で発表されてた論文。著者はかの有名なFactorization Machinesの人。Googleに行ってたのね。いままでとはちょっと違う研究をしてるように感じる。 論文はここから読める。 www.kdd.org 勉強会で紹介したので念のため、その時のスライドはこちら。 Robus…

無限潜在特徴モデルを実装した

引き続きノンパラベイズ。今回はノンパラベイズ本の7.4節で説明されてる無限潜在特徴モデル(Infinite latent feature model; ILFM)を実装した。 ノンパラメトリックベイズ 点過程と統計的機械学習の数理 (機械学習プロフェッショナルシリーズ)作者: 佐藤一…

無限混合ガウスモデルを実装した

ノンパラベイズ面白いね。佐藤一誠先生のノンパラメトリックベイズの本を読んで自分なりに理解できたので実装してみた。本読んで理解して、自分で導出して、実装・実験するの本当に重要。定着度がぜんぜん違う。 ノンパラメトリックベイズ 点過程と統計的機…

Tucker分解の導出と実装

CP分解の次はTucker分解を導出して実装する。丁寧にTucker分解の導出を説明してる文献(Web含め)が全然なかったので、自分で書く。CP分解についてはある程度知ってる前提とする。CP分解についてはこちらから。 yamaguchiyuto.hatenablog.com まとめ Tucker…

クロネッカー積とvec作用素とRoth's column lemma

クロネッカー積とvec作用素は見た目簡単なんだけど、各要素のインデックスを書き下すと頭の中こんがらがってわけわからなくなるから一旦整理した。インデックスに関する記事ってほとんどないね。あとそれに関連して Roth's column lemma っていうのが便利な…

Alternating Least Square (ALS) でCP分解

テンソル分解の基本中の基本のCP分解を導出して実装した。最適化の方法は色々あるらしいけど多分いちばんよく使われる Alternating Least Square (ALS) を使った。ちなみにここでテンソルって呼んでるのはただの多次元配列のこと。 まとめ CP分解とは AlSに…

scikit-learn準拠で Label propagation とか実装した

scikit-learn準拠で Label propagation 的なアルゴリズム達を実装した。なんで実装したかというと、 グラフそのもの(隣接行列)を入力したい。 scikit-learnには既にsklearn.semi_supervised.LabelPropagationが実装されてるけど、これはグラフを入力するん…

TransE [NIPS'13] を実装(と実験再現)した

Graph embedding を調べる上で避けては通れないっぽいTransEを実装して実験再現してみた。モデルがシンプルでカッコイイし実装も簡単だった。データもパラメータも公開されてて実験を再現できたのもポイント高い。 TransE NIPS'13で提案されたGraph embeddin…

Graph embedding の RESCAL [ICML'11] を実装した

最近Graph embeddingに興味があって調べてるので有名っぽいRESCAL [ICML'11] をとりあえず実装してみた。さすが結構引用されてるだけあって簡単お手頃に実装できた。やっぱシンプルさ大事。 Graph embedding 入力 グラフ G = (V,E) 出力 それぞれの頂点 に対…

CMU教授直伝の論文の書き方

CMUに留学している時にFaloutsos教授に教わった論文の書き方をまとめる。この書き方に従うことで論文の採択率がかなり上がった。今となっては自分的に当たり前のことだし、できる研究者の皆様は自然と守っていることも多いと思うけど良い論文を書きたいと思…

Personalized PageRankとLabel Propagationが等価という話

無向グラフの時のPersonalized PageRank*1とLabel Propagation*2(LGCとも呼ばれる)が本質的に等価というお話。つまりLabel Propagationを計算したいときはPersonalized PageRankを計算すれば等価な結果が得られる。Personalized PageRankとLabel Propagati…

2015年まとめ

自分のために2015年をまとめておく 帰国した 去年の4月から1年間 CMU の Faloutsos 先生のグループに留学していたけどそれが終わった。研究面ではもちろんものすごい勉強になったしアメリカで生活したのも良い経験になった。おいしい日本食がないし英語も…

EMアルゴリズムでPLSAとSSNBを導出

Machine Learning Advent Calendar 2015 の10日目です。 EMアルゴリズム自体の説明は溢れてるけど実際にEMアルゴリズムを使って何かを解いてみたっていう例題はGMM(Gaussian Mixture Model)以外あまり見ない気がする。なので今日は二つの例題を使って具体…

Impact = Luck x Skill

ICCSS2015 (International Conference on Computational Social Science)に参加してきた。最近ちょっと盛り上がりを見せている(?)Computational Social Science に関する会議で、今年から始まったらしい。注目すべきなのはなんといっても招待講演者の豪華…

ICWSM2015で発表した

ICWSM2015で発表してきた。タイトルは"Patterns in Interactive Tagging Networks"。2年前にポスター発表していて、今回はフルペーパーで発表できた。この会議は面白いから今後も参加したいなー。 今回の発表は初めての「分析しました論文」だった。WWW2015…

WWW2015でポスター発表した

WWW2015でポスター発表してきた。WWWは以前聴講だけで参加したことがあって、今回はポスターだったので、次回はフルペーパーで発表したい。今回のポスターのタイトルは"Why Do You Follow Him? Multilinear Analysis on Twitter"。キャッチーなタイトルにし…

PAKDD2015で発表し(てもらっ)た

PAKDD2015に論文が通っていたので発表した。タイトルは"SocNL: Bayesian Label Propagation with Confidence"。自分で参加して発表したかったんだけどちょうど同じ日程でWWW2015が開催されていて、そっちでの発表もあったので、PAKDDには参加できなかった。…

Predicting the Demographics of Twitter Users from Website Traffic Data (AAAI'15) を読んだ

AAAI2015のOutstanding paper award honorable mention。発表聞いた時は何でこれが賞とったのかな?と思ったけど実際論文読んだら結構面白かった。 概要 Twitterユーザのいろいろな属性(年齢、性別、人種、収入、学位、子持ち)を推定する。面白いのはQuant…

On the Accuracy of Hyper-local Geotagging of Social Media Content (WSDM'15) を読んだ

WSDM2015から。ちょうど開催中なので。 概要 簡単なアルゴリズムは提案しているが、主に分析しました論文。ツイートのジオタグを推定する。主にやったことは ジオタグ推定の簡単なアルゴリズムの提案 ツイートが投稿されたソース (Foursquare, Instagram, iP…

AAAI2015で発表した

AAAI2015で発表してきた。タイトルは"OMNI-Prop: Seamless Node Classification on Arbitrary Label Correlation"。必殺チェアーからの質問による時間稼ぎは出ずにちゃんと聞いてくれてる人たちから質問が出たから良かったかな。 今回はソーシャルネットワー…

AAAI2015本会議

AAAI2015本会議。論文発表だけじゃなくていろんなセッションがあって単純に楽しいイベントだった。ロボットがそこらじゅうを動きまわってたり、ゲームAIの展示がたくさんあったり。一般人にも公開されてて、子どもたちがたくさんロボットを見に来てた。ロボ…

AAAI2015一日目&二日目

AAAI2015に参加中(TASAは何なのか知らない)。1,2日目はワークショップとチュートリアルと招待講演があった。例のごとくワークショップはパスしていくつかチュートリアルと招待講演を聞いて回った。 いろいろ聞いた感じだと、AIコミュニティはホントにい…

Joint Inference of Multiple Label Types in Large Network (ICML'14) を読んだ

ICML14から。数式とか書くのはめんどくさいからアイデアを中心に書く。 概要 ネットワーク上の ノード分類 の話で、各ノードは 複数のラベルタイプを持っている という設定。例えば論文中で使われている例だと、Facebookユーザの出身地、現住所、高校、大学…

Label propagationとLabel spreading

グラフベース半教師あり学習 (SSL) のLabel propagation (LP) とLabel spreading (LS) の違いを説明している文献があまりなかったのでそれについてちょっと書いてみる。SSL自体とかLP、LSについては以下の記事にまとめた文献がいい感じなのでそちらを参照。 …

Semantic Stability in Social Tagging Streams (WWW'14) を読んだ

WWW14から。次のWWW15はイタリアフローレンス!参加したい! 概要 Social tagging systems(FlickrとかDeliciousとか)においてリソース(Flickrなら写真、DeliciousならWebページ)に付けられたタグがどのように "Stable" になっていくかを分析。 Social ta…

Detecting Campaign Promoters on Twitter using Markov Random Fields (ICDM'14) を読んだ

ICDM14からもう一本。一度も参加したこと無いけど来年は参加してみたいな。 概要 TwitterからCampaign Promotersを検出する。Campaign Promotersってのは企業によるマーケティングやら政府による何らかのキャンペーンとかをやってるTwitterアカウントのこと…

scikit-learn準拠の学習器を作ってgrid searchとかcross validationする

Python Advent Calender 2014の19日目。 scikit-learnに準拠した学習器を自分で実装してscikit-learnに実装されているgrid searchとかcross validationを使えるようにするお話。Pythonの話というか完全にscikit-learnの話なんだけど、まあいいよね。 scikit-…

Collective Prediction of Multiple Types of Links in Heterogeneous Information Networks (ICDM'14) を読んだ

ICDM14が始まったので興味ありそうな論文をいくつか読んでみようと思う。 概要 色んな種類のノード、エッジがあるネットワーク(Heterogeneous networks)においてリンク予測をする。 論文中で例に挙げられてたネットワークのスキーマ(論文中Fig.2を引用)…

グラフのエッジリストから次数分布等をプロットするスクリプト書いた

グラフのデータを手に入れたらまずは次数分布をプロットするのが定石だけど、なぜか毎回毎回実装しなおしててアホだったから反省してちゃんと書いた。 次数分布とそのCDF、CCDFをプロットする。 要Numpy, Scipy, Matplotlib, Networkx。 使い方 言わずと知れ…

半教師あり学習のモデル仮定

Machine Learning Advent Calendar 2014の12日目。 最近半教師あり学習に興味があってちょっと勉強してみたのでそれについて書いてみる。自分が勉強した時に読んだ文献も下の方に書いたのでもし興味があれば。 半教師あり学習はラベル付きデータに加えてラベ…

Spatio-Temporal Dynamics of Online Memes: A Study of Geo-Tagged Tweets (WWW '13) を読んだ

この辺かなり興味があるトピックなのになぜかこの論文を見落としていたので読んだ。読んでみた感想は正直いって直感的な結果の羅列であまりおもしろくなかった。たださすがWWWで、データの規模は半端ないし、実験もちゃんとやってる印象はあった。まぁ知って…

CIKM2014で発表した

CIKM2014で発表してきた。タイトルは "Online User Location Inference Exploiting Spatiotemporal Correlations in Social Streams" 。質疑終わった後もオフラインでけっこう質問もらえていい感じだった。国際会議の醍醐味ですね―。あとで「お前の過去の論…

CIKM2014五日目

CIKM2014最終日。今日はワークショップとチュートリアルのみ。 午前と午後でチュートリアルを1つずつ聞く予定だったんだけど、午後のDeep learningのチュートリアルが満席で見れなかった。残念。大きい部屋使ってるワークショップがガラガラだったから部屋…

CIKM2014四日目

CIKM4日目。本会議の最終日。 今日は一番楽しみにしてたJeff Deanのキーノートがあった。さすがすごい面白かった。うわー、Deep Learningすげー、手出さんとこーって思った。Baiduの人はインダストリーセッションなのに延々とSGD(確率的勾配降下法)の高速…

CIKM2014三日目

CIKM2014三日目。本会議二日目。 キーノートとインダストリートーク二つ聞いたけど、どこもかしこもKnowledge Graph!って感じだった。この前のKDDでもそうだったけど、すごい流行ってるな。みんなWebからエンティティを抽出しましょう!エンティティをつな…

CIKM2014二日目

CIKM2014二日目。今日から本会議が始まる。 正直なところ、国際会議ですべきことは個々の論文発表を聞くことじゃないと改めて痛感した。20分間発表聞くなら論文のイントロとまとめ読んだほうがいい気がした。口頭発表でアルゴリズムの詳細の説明をしないでく…

CIKM2014一日目

CIKM2014に参加中。今日はワークショップとチュートリアルの日。本会議は明日から。 ワークショップとチュートリアルはどれに出るのが一番いいのか未だにわからない。自分の分野に近いチュートリアルに出て最新の状況とか確認するのがいいのか、直接は関係な…

自分がふぁぼったツイートをランダムに表示するスクリプト書いた

スライド作りが進まないから現実逃避してちょっとしたスクリプトを書いて遊んだ。題して「自分がふぁぼったツイートをランダムに表示するスクリプト」 モチベーション 自分は後で読む的な意味合いでツイートをふぁぼるんだけど、例のごとく「後で読む」はど…

研究発表の軽視文化

アウトプット重要とか言いながらまだ何も書けてない。来週のCIKM2014に向けて発表資料を作ってるんだけどどうも気が乗らなくて全然進まない。どうしても勉強したり論文読んだりしたくなってしまう。んでなんでそんなに気がのらないんだと考えたら国際会議で…

アウトプット超重要

もう幾度と無く言われてきてることだけどやっぱり何かをアウトプットするのって最重要。研究者なら論文を書くとか、開発者ならGithubになにかプロダクトを上げるとか、人前で何かをプレゼンするとか、思ったことをブログに書くとか、友達と話すとか、とにか…

Who Says What to Whom on Twitterを読んだ

古いけどWWW2011で発表されていた"Who Says What to Whom on Twitter"をちらっと読んでみた。論文はここから 第四著者にはかの有名なダンカン・ワッツが名を連ねていてそれだけで読む価値あり的な空気を醸し出している論文 概要 Twitterでの情報の流れのデー…

The Bursty Dynamics of the Twitter Information Network (WWW'14)を読んだ

StanfordのJure Leskovec関連の論文The Bursty Dynamics of the Twitter Information Networkを読んだ。 ファーストではないけどウェブ系の研究のトップ会議のWWWに4本も通しててもう何が何やら・・・。論文はここから。PDF 概要 Twitter上でのリツイートに…

Make It or Break It: Manipulating Robustness in Large Networks(SDM'14)を読んだ

研究室の教授がこれは面白かった!って言ってたからSDM'14に出てた論文Make It or Break It: Manipulating Robustness in Large Networksを読んだ(論文はタイトルでググればPDFが出てきます)。採択論文リストはここから。SDM14 Accepted Full Papers 概要 …

ピッツバーグで暮らす

いろいろとあれがあれしてアメリカのピッツバーグにあるカーネギーメロン大学で一年間研究することになった。そろそろ二週間くらいになるけど、ピッツバーグで暮らし始めてから色々と大変だったから今後ピッツバーグに来る人のためにちょっとメモ。 ピッツバ…

ボックスカウント法でフラクタル次元を計算

いろいろ調べてたら楽しくなってきたから実装してみた。やっぱりフラクタルには夢が詰まってると思う。実装はGithubにあげてみた。 yamaguchiyuto/fractal · GitHub まとめ ボックスカウント法でコッホ曲線、シェルピンスキーのギャスケット、直線、点のフラ…