はじめに
2015年10月に『岩波データサイエンス』というデータサイエンスに関するシリーズが発刊された。このシリーズは、統計科学、機械学習、データマイニングなど、データを使った技術についての情報を提供することを目的にしたもので [1] 、おおよそ4ヶ月に1巻ずつ刊行され、とりあえずは6巻まで出されるとのことである [2] 。体裁としては、ムック、すなわち雑誌と書籍の中間的なものとなっている。基本的には各巻ごとに特集が定められており、各巻ごとが独立した内容になっている [3] 。
シリーズの1巻目となる『岩波データサイエンス Vol.1』は、「ベイズ推論とMCMCのフリーソフト」を特集している。この特集は、今、実際にベイズ推論とMCMC(マルコフ連鎖モンテカルロ法)を使って、データを分析するときに十分役立つ内容となっている。
- 岩波データサイエンス刊行委員会〔編〕.(2015). 『岩波データサイエンス Vol.1』,東京:岩波書店.
なお、「統計的自然言語処理」を特集する次巻『岩波データサイエンス Vol.2』は、2016年2月16日に発売が開始される。ちなみに、本当は2月10日に発売される予定だったのが、ISBNの誤植によって発売が延期されたとのことである [4] 。
特集の内容
上で見たように、『岩波データサイエンス Vol.1』は、「ベイズ推論とMCMCのフリーソフト」を特集している。
ベイズ推論とは、ベイズの定理を基にして統計的な推論をしていく手法のことであり、現代の統計学で広く使われている一派である。MCMCは、Markov Chain Monte Carlo method(マルコフ連鎖モンテカルロ法)の略で、統計に関するパラメータを求めるために使われる手法の1つである。ベイズ推論とMCMCを組み合わせることによって、複雑な統計モデルについて分析できるようになる。
この巻の特集では、ベイズ推論とMCMCについて簡単な紹介がなされた上で、それらを具体的にどう実装するのかということに重点を置いて説明している。その意味で、ベイズ推論とMCMCについて、これから実際のデータ分析の場で使っていこうという人に向いている内容であると思う。
例えば、こうした分析をするときに使われるStanというプログラミング言語の紹介やプログラミング言語 Python でMCMCを行うためのライブラリPyMCの紹介などが掲載されており、実際にどう分析すれば良いのかが分かる内容になっている。
個別の記事について
以下、『岩波データサイエンス Vol.1』に載っている個別の記事について、いくつか紹介していこう。
ベイズ超速習コース
- 伊庭幸人.(2015). 「ベイズ超速習コース」『岩波データサイエンス Vol.1』 (pp. 6-16),東京:岩波書店.
ベイズ統計学というものはどういうものかということをこの巻の特集の内容に即して説明した文章である。一般的なベイズ統計学の簡単な説明よりも、やや深掘りした内容が書かれており、この巻の特集を理解する良いイントロダクションとなっている。ベイズ統計学の基礎を知っている人にとっても、「そうか、それはベイズ統計学ではこう捉えるのか!」といった気づきが得られる文章だと思う。
階層ベイズ最初の一歩
- 久保拓弥.(2015). 「階層ベイズ最初の一歩」『岩波データサイエンス Vol.1』 (pp. 19-38),東京:岩波書店.
RとJAGSというソフトウェアを使って、階層ベイズモデルを扱う手法について紹介している。なぜ階層ベイズモデルを使うとうれしいのか、そしてこのうれしさが実際の分析にどう活かされるのかが分かるものとなっている。
MCMCソフトを使う前に
- 松浦健太郎.(2015). 「MCMCソフトを使う前に」『岩波データサイエンス Vol.1』 (pp. 60-61),東京:岩波書店.
たった2ページに過ぎないコラムだが、MCMCをする前に、そもそもどういう準備をしておかなくてはならないのかが書いてある。意外と教科書の類だと、すべて準備が済んでいる状態から説明が始まるので、こういった事前準備ですべき内容が書いてあるこの文章は貴重である。データ分析を実際にするときは、事前準備こそが大事なことなので、この文章を読んでどのような準備をすべきか覚えておく価値はあると思う。
この本が難しいと感じる場合
『岩波データサイエンス Vol.1』のベイズ推論とMCMCの特集は、決して初心者向けのものではない。少なくとも、統計モデルという概念が分からないと理解するのが難しいと思う。
なので、この本の特集記事を読んで難しいと感じるのならば、先に統計モデルを扱った教科書を使って勉強しておいた方が良いと思う。
例えば、『岩波データサイエンス Vol.1』にも記事を載せている久保拓弥・北海道大学助教が書いた『データ解析のための統計モデリング入門』が、この分野について学ぶときの教科書としては定番であろう。この本の内容は『岩波データサイエンス Vol.1』と補い合っているところがあるので、『データ解析のための統計モデリング入門』を一読した後に『岩波データサイエンス Vol.1』を合わせて読めば理解が進むと思う。
両書を比較すると、『データ解析のための統計モデリング入門』がどちらかと言えば基礎的で抽象的な内容であるのに対し、『岩波データサイエンス Vol.1』の特集記事は発展的で具体的な実装・分析に近い内容である印象がある。
なお、前にこのブログで「『データ解析のための統計モデリング入門』のレビュー」という記事を書いたので、そちらも参考にしていただければと思う。
『データ解析のための統計モデリング入門』もまだ難しいと感じる人は、『一般線形モデルによる生物科学のための現代統計学』 [5] を読んでおくと良いだろう。こちらはより基本的なものなので、とっつきやすいと思う。なお、この本のタイトルの中に「生物科学のための」という文言があるが、生物科学が専門でない人が読んでも特に問題はない。
- 岩波書店ウェブサイトの『岩波データサイエンス』紹介ページの記述による。 [↩]
- 「岩波データサイエンスって?」による。 [↩]
- ただし、連載記事も若干ある。 [↩]
- 岩波DS [@iwanamiDS]. (2016年2月9日). 「明日、10日発売予定だった「岩波データサイエンスvol.2」ですが、2月16日発売の延期となりました。楽しみにしてくださっていた皆様、大変申し訳ありません。ISBN番号に一字だけ誤植が存在していたため、現在訂正作業を進めている模様です。」 [Twitter post]. Retrieved from https://twitter.com/iwanamiDS/status/697033733308690436. [↩]
- 英語が苦にならないのならば、原著であるModern Statistics for the Life Sciencesを読むという手もある。 [↩]