読者です 読者をやめる 読者になる 読者になる

でかいチーズをベーグルする

でかいチーズはベーグルすべきです。

CMU教授直伝の論文の書き方

CMUに留学している時にFaloutsos教授に教わった論文の書き方をまとめる。この書き方に従うことで論文の採択率がかなり上がった。今となっては自分的に当たり前のことだし、できる研究者の皆様は自然と守っていることも多いと思うけど良い論文を書きたいと思っている学生とかに参考にしてもらえたらと思う。ただし、Faloutsos教授に教えてもらったことを一旦自分で噛み砕いてからまとめたものなので自分の主観とかが混じってしまっているかもしれない。

主語が大きくならないように予め断っておくけど、この書き方はもちろんすべての論文に対して当てはまるわけじゃなくて以下の前提条件がある。

論文誌とか卒論とかもっと長めの論文を書くときは当てはまらない項目もあるし、データマイニング関連分野以外の論文を書いたことが無いのでそれ以外の分野の論文に当てはまるかも分からない。

"Make your paper STRUCTURED and APPEALING"

論文を書くときの思想。以下のTIPSは全てこの思想に従ってる。論文を構造化することでこの論文に何が書いてあるのかがパッと見わかるようになるし、アピーリングにすることで読んでみたくなる。

論文を構造化するというのはだらだらと文章を書くんじゃなくてResearch questionに番号をつけて適宜参照するとか、箇条書きをうまく使うとか、主張一つ一つに番号を付けるとか。論文中のベタ書き文章は実験結果とか図とか表とか定理とかを説明するためにあるだけであって、極端だけど おまけ にすぎない。おまけをだらだらと書くのはやめよう*1

(MUST) "Don't go into detail in abstract"

アブストには詳細を書かない。特に提案アルゴリズムの詳細なんて書いた日にはそんな論文は誰も読まなくなる。読者がアブストに期待しているのは「その論文によって何ができるようになったのか(What)」を知ることであって、「どのようにしたのか(How)」ではない。

(MUST) "Start with your questions"

アブストとイントロを質問文から始める。複数あっても良い(三つくらいが限度?)。この質問文というのは、この研究で扱うResearch questionをもう少し柔らかくしたようなもの。読者はこの質問文を読むことでいきなりこの研究が何をしようとしているのかなんとなく分かる。例えばPageRankの論文を自分が書くとしたら "How to rank an enormous number of Web pages?" って感じで始めるかな。

Crown jewel

この論文のメインの実験結果を表す図を論文の1ページ目(もしくは2ページ目)の一番上に載せる。ここに載せた図は後の実験の節で再び登場してもOK。同じ図を複数回載せるのが良いか悪いかは議論を呼びそうだけど、これも全て論文をアピーリングにするため。ちなみに自分はこれにはあまり肯定的ではないので、これをすることによって論文がいい感じになりそうなときだけ従ってる。

(MUST) 3 words title in caption

図や表のキャプションの書き方にはいろいろ派閥があるみたいだけど、自分が教わってこれが一番いいなと思ったのはこのやり方。まず3単語以内でその図のタイトルを書く。これは強調するためにボールドとかにしたほうが良い。その後に図の説明をして、もう少し長く図から言えることを書く。

例) Three words title: Figure legends go here. Write the result of this figure here.

キャプションで説明したことは本文中でも説明する。同じことを書いてもOK。

(MUST) "State your main result in introduction"

この論文を読む読者(査読者)に伝えたい結果をイントロに書く。もし結果が複数ある場合はその中でもっとも重要なものを書く。明確に、目立たせて書く。読者にこれを伝えないと読者はなぜこの論文を読む必要があるかが分からない。

(MUST) "List your contributions in introduction"

イントロで自分の研究の貢献を 箇条書き にする。これをやらないとリジェクト。論文の中では自分の主張が最も重要なのでこれを明確に、目立つように記述しなくてはいけない。これは論文を構造化するためにもアピーリングにするためにも重要。

(MUST) Salesman's table

既存手法と自分の手法とを比較して自分の手法が優れているということを主張するための表のこと。関連研究の節で書く。深く関連する既存研究がいくつかあるときにはマストだと思う。こんな感じで優劣がひと目で分かる。

既存手法1 既存手法2 既存手法3 提案手法
速い x x x
精度良い x x
シンプル x x

こういう表を書いている論文は結構あるので見たことはあるんじゃないかな。ただし、これはただ単に定性的な比較なので理解を助けるという意味でしか使えない。もちろんこの主張を裏付ける理論的もしくは実験的な比較はやらないとダメ。

"Don't cite any related work in your proposal"

自分の提案(手法)を書く節では関連研究を引用するなという話。これについては「ホントにそれでいいのか?」と思う部分があるけど言いたいことは分かる。自分の提案をしている時に既存研究の話が出てくるとどこまでが既存研究でどこからが自分の研究かわかりづらくなるし、そもそも新規性も薄れてしまいがちになる。自分の研究の位置づけはイントロと関連研究の節で済ませておくべきなので提案手法の節でそれをやってはいけないということ。

(MUST) "Number your observations"

定義とか定理とかに番号をつけて明示的に書くってのはみんなやってるけど実験結果から言えるObservationに対しても番号をつけましょうということ。

Observation 1: ---

みたいに書くということ。こうすれば読者はこの実験から言えることは何かが明確にわかるし、後の文章で参照することもできる。もっと言うとObservationにかぎらず重要な項目は全て番号をつけて強調して書くべき。

(MUST) "Repeat your contributions in conclusion"

イントロで挙げた貢献をconclusionでもう一度述べよということ。具体的には、貢献とそれをサポートする結果とを結びつけてリストアップする。こうすることで、

  • 読者(査読者)の理解を助ける、
  • イントロで挙げた貢献(主張)が本当にこの論文でサポートされたかがはっきりする。

多分2点目は最も重要で、これができていない論文はほぼ確実にリジェクトされる。(できる)研究者の間では共通見解として持たれていると思うんだけど、これができていない論文の多いことよ。自分の主張とやったこととを 厳密に 対応させることは最も重要。そのためにconclusionで貢献をリピートすることが重要。

*1:この辺についてはまたちゃんと書いてみたい。