はじめに
東京大学出版会から出ている『基礎統計学I 統計学入門』という本がある。
- 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会.
この本は、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。
- 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ)
- 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~)
- 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所)
それでは、なぜこの本はすすめられるのだろうか? そして、どういう人がこの本を読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良い本なのだろうか? この記事ではこうした疑問に答えていきたいと思う。
私の意見を先に述べておこう。この本は、統計の初心者にはあまり向かない。統計のごく簡単な入門を学び終えて、さらに深く学びたいと考え始めている人こそが読むべきだと思う。こうした人がこの本を読むことで、統計の基礎知識をさらに広げることができる。これが、まさにこの本のおすすめできる点である。
どういう人がこの本を読むべきか
この本のタイトルに『統計学入門』と書いてあるが、本当に統計について何も知らない初心者がこの本を読んでも意味が分からないで終わってしまうと思う。統計を全く学んだことのない人は、「統計学の初心者が入門として最初に読むべき一冊」という記事で紹介されている『マンガでわかる統計学』のような本をまず読むべきだ。
『マンガでわかる統計学』のような入門書を読み終えた後、さらに統計について深く学びたいと考えたならば、東京大学出版会の『統計学入門』はおすすめである。この本は、入門書で学んだ知識をさらに広げ、もっと高度な統計の世界に行けるように橋渡ししてくれる。
また、普通の入門書では概要の説明にとどめている項目について、より発展的な話題や実際の統計の使用の際に注意すべき点がこの本にはしっかり書かれている。これはこの本の良いところだ。
しかし、統計を全く学んだことのない人にとってはかえって良くないところでもある。なぜならば基礎的なことだけでなく発展的な内容まで書かれているため、一度に見ることになることがとても多くなってしまうからだ。いきなり多くのことを学ぼうとしても、ちゃんと理解するのは難しいだろう。だから、こうした人は東京大学出版会の『統計学入門』を読むよりも、基礎的な内容しか載っていない簡単な入門書を読んだ方が、一度に覚えるべき内容も少なくて学びやすい。『統計学入門』は基礎的な内容がある程度身についた上で読むべき本なのだ。
例えば、相関係数という統計用語と聞いて「相関係数って何?」と思ってしまう統計の全くの初心者には、この本は向かない。むしろ一度統計の入門を学んだことがあって、「ああ、相関係数ね、知ってるよ、関係の強さを示すんだよね、値が1ならば関係がすごく強くて、0なら関係がないってやつ」と言える人にこそ、この本を読む価値がある。統計の入門で学んだ基礎知識が必ずしも通用しないときどうすれば良いかということが、『統計学入門』には書かれている。
実際、『統計学入門』の相関係数を扱った章(第3章)には、普通の相関係数について説明した後、それではうまくいかない例として飲食店の数と金融機関の店舗数の関係を挙げている。飲食店の数と金融機関の店舗数の間には強い相関があるのだが、実は昼間人口という共通の原因が両者に影響を及ぼしている。つまり、飲食店の数と金融機関の店舗数の間の関係は「みかけ上の相関」なのだ。そして、『統計学入門』では、こうした1つの共通原因とそれによってもたらされる2つの結果という状況を論じる方法として、「偏相関係数」という概念を導入している。
こういった形で、ありふれた入門書には載っていないものの、実際に統計分析をする場面では必要になることを『統計学入門』はうまく導入している。
数学的前提
この本は、数学に対してある程度慣れていないと、読むのが難しい。例えば、$(ax + b)^{2}$を展開して$a^{2} x^{2} + 2abx + b^{2}$にしたり、総和の意味でΣを使ったり、座標平面上の2点の距離を求めたりすることができないと、この本を読むのは辛いだろう。おそらく、センター試験の数学がある程度分かるレベルの知識は必要だ。高校の科目でいうと、数学I・数学II・数学A・数学Bについて知っている必要がある。
大体次のようなことについて知っていれば、この本を読むことはできるだろう。
- 文字式の取り扱い(式の展開や因数分解などを含む)
- 数列と総和
- 図形と方程式(点の座標、直線の式)
- 指数関数、対数関数
なお、微積分については分からなくても何とかなると思うが、分かっていた方がより理解はしやすい。線形代数の知識はほとんど要らない。
どう読んでいけば良いか
この本は決して全部を理解しなくてはならない本ではない。また、一度読んだだけで全部理解する必要もない。必要なところから少しずつ読んでいくのが賢明だ。
初めてこの本を読む人は、まず以下の場所を読むと良いだろう。このあたりを読むと、既に知っているであろう統計のごく基礎的な知識がさらに強化されるだろう。
- 第1章:統計学の基礎
- 第2章:1次元のデータ
- 第3章:2次元のデータ(3.3.3節から3.4.3節までは飛ばして良い)
- 第4章:確率(4.3節と4.5節は飛ばして良い)
- 第9章:標本分布(9.3節と9.4節は飛ばして良い)
- 第11章:推定(11.3節と11.4節は飛ばして良い)
- 第12章:仮説検定(12.4節は飛ばして良い)
その次には、上で「飛ばして良い」と書いた部分のほか、以下の部分を読むと良いだろう。
- 第5章:確率変数のうち、5.1節と5.2節
- 第6章:確率分布のうち、6.2節、6.3節、6.6節
- 第13章:回帰分析
残った部分、特に第7章・第8章・第10章はかなり難しいので、他の部分を理解した後に読めば良いだろう。分からないのならば、読むのを諦めてしまっても良いぐらいである。
なお、この本の冒頭(ixページ)に「本書の使い方」という文章があるので、それも参考のこと。
『統計学入門』の姉妹本
『統計学入門』の姉妹本として『人文・社会科学の統計学』という教科書と『自然科学の統計学』という教科書もある。一応前者が文系向け、後者が理系向けということになっているが、理系の人が『人文・社会科学の統計学』の内容を必要とすることもあるし、文系の人が『自然科学の統計学』の内容を必要とすることもある。正直に言えば、文系か理系かということにこだわらず、自分の興味のある統計手法が載っているものを読むと良いと思う。
- 東京大学教養学部統計学教室〔編〕 (1994). 『基礎統計学II 人文・社会科学の統計学』 東京:東京大学出版会.
- 東京大学教養学部統計学教室〔編〕 (1992). 『基礎統計学III 自然科学の統計学』 東京:東京大学出版会.
それぞれの本について簡単に内容を紹介しておこう。
『人文・社会科学の統計学』の第1章は統計学の基本的な考え方を簡単に述べたものであり、『統計学入門』の復習として使える。第2章には統計グラフ・相関係数・回帰分析の話が、第3章には標本調査法の話が載っており、文系であろうと理系であろうと有用な情報が載っている。
それ以降の章は、学問分野ごとに分かれている。第4章から第7章は経済統計に関する話が載っている。第8章から第10章は社会学に関する話である。第11章から第13章までは心理学・教育学に関する話である。
『自然科学の統計学』の方は、特に学問分野ごとに分かれてはおらず、『統計学入門』の内容よりもっと高度な統計手法(分散分析、適合度検定など)を色々と載せてある。ここに載っている手法は文系の人でも必要になることがある。例えば、心理データや教育データの分析をするときに、この本に出てくる分散分析という分析はよく使う。だから、そういう人が、読んでおいても良いかもしれない。
ただし、この本は、こういう分析があるという概観を示しているに過ぎないので、もっと詳しく勉強したい人は他の本を読んで勉強するのが良いと思われる。例えば、『自然科学の統計学』で分散分析について記述しているのは1章しかない。しかし、分散分析の手法は奥が深く、それだけで1冊の教科書として売っているほどだ。だから、『自然科学の統計学』を読んで興味を持ったら、もっと詳しく書いてある教科書を読むという手段を取れば良いと思う。