統計の力で因果を見つけ出す:『岩波データサイエンス Vol. 3』のレビュー

概要
「因果推論」を特集している『岩波データサイエンス Vol. 3』の紹介。データから因果関係を見つけ出したいときに役立つ内容が載っている。

はじめに

この記事では、2016年6月に刊行された『岩波データサイエンス Vol. 3』の内容について紹介したいと思う。

『岩波データサイエンス』は、統計科学などデータを使った技術についての情報を提供するためのムックである。その Vol. 3は「因果推論——実世界のデータから因果を読む」を特集とし、因果推論の基本的な考え方と若干の分析例を紹介している。

特集の内容

統計の入門授業を取ったことがある人は、相関に関する説明で「相関があっても因果があるとは限りません」といったことを言われたことがあるかもしれない。そして、「世界の海賊の数が減るにつれて、地球温暖化が進むという相関があったとしても、海賊の数が原因となって温暖化という結果がもたらされたわけではない」といった話を聞いたことがある人もいるだろう。

相関は因果と違う——このことはもっともだ。だが、違うということは分かっていても、具体的なデータ分析において、どうすれば単なる相関と因果を切り分けることができるのかを知っている人は存外少ないのではないだろうか。統計の入門授業でも、「相関があっても因果があるとは限りません」と言うだけであって、どうすべきかということまで説明しているものはあまりないだろう。

それでは、単なる相関と因果を切り分ける方法はあるのだろうか。

今回紹介する『岩波データサイエンス Vol. 3』で特集されている「因果推論」がその答えになる。因果推論の考え方と手法を正しく用いれば、因果の有無が分かるし、因果がある場合にその影響の強さを知ることもできる [1]

今号の特集は、まず因果推論の枠組みと、実際に用いられる手法を紹介する文章が4編あり、その後に因果推論を用いた分析事例を紹介する文章が3編あるという構成になっている。

個別の記事について

以下、『岩波データサイエンス Vol. 3』に載っている個別の記事について、いくつか紹介していこう。

因果推論ことはじめ

これは、今号の特集における最初の文章で、その名の通り、因果推論の考え方のごく基本的なところについて説明している。具体的には、まず相関関係と因果関係の間のずれについて述べたあと、交絡によって因果関係がないものに相関関係が観察されることがあるということを説明する [2]

その後、交絡に対処する方法として、無作為に割り当てを行うランダム化比較試験について紹介し、さらにこれが使えない場合の方法として、層別解析回帰モデルの利用を紹介している。

相関と因果と丸と矢印のはなし

これは、先に触れた「因果推論ことはじめ」の内容を別の視点から深めたもので、因果の構造を図示すること、そして因果の構造の中からモデルに加えるべき変数を選択する基準であるバックドア基準について説明している。

バックドア基準は必ずしも簡単な話ではないのだが、この文章では、上流から下流への流れがある人工池の水位という比喩で巧みに説明している。

準実験のデザイン

これは、観察データから因果関係を見つけ出すための準実験の手法について紹介したものである。因果関係を見つけ出すには、被験者を無作為に割り当てて実験を行うランダム化比較試験を用いるのが理想である。しかし、現実にはこれを用いることができないこともある。こうした場合、(無作為な割り当てが必ずしもなされていない)観察データから因果関係を推定する必要が出てくる。そうしたときに役立つ手法を紹介したのがこの文章である。

具体的には以下の手法を紹介している。

統計的因果効果の基礎

これは、因果推論を行うときによく用いられるルービン因果モデルや傾向スコアについての基礎を紹介した文章である。この特集の中では、特に歯ごたえがある内容である。

因果効果推定の応用

これは、因果推論の枠組みの説明というよりも、実際に因果効果を推定してみた実例を紹介する文章である。具体的には、あるスマホアプリのテレビCMを視聴したかどうかが、そのアプリの利用時間の伸びにつながるかという問題を扱っている。

ここで、期待としては、CMを見た方が利用時間が伸びるということになるが、単純な分析を行うとそうはならなかったそうだ。単純な分析では、CMを見た方がアプリの利用時間が短いという結果が出てきてしまったのだ。1つの理由としては、CMを見た人たちはそもそもテレビの視聴時間が長い高年齢層が多く、そもそも高年齢層はスマホアプリにあまり時間を割かないということが挙げられる。こうした年齢による偏りなどのために、CMの視聴がアプリの利用時間に及ぼす因果効果をうまく推定できないのだ。

そこで、この文章では、因果推論の考え方を利用したもう少し複雑な分析をし、因果効果をうまく推定していっている。

掌編小説《海に溺れて》❸確信

これは、因果推論の特集とは特に関係がないもので、作家の円城塔氏が岩波データサイエンスに連載している短編小説の3本目である。連載だが、前の号のストーリーとは特に関係がないので、これだけを独立で読むことは可能である。

今号のストーリーは、統計分析者であれば、身につまされるところがある内容であると思う。統計分析者が統計を知らない人とやりとりするときに感じるつらさが、円城塔の巧みな文章でつむがれていき、最後のきつねにつままれたようなどんでん返しにより、そのつらさが一気にカタルシスに至る。個人的には、これが今号の内容で一番面白かった

もっと知りたい人のために

岩波データサイエンス Vol. 3』では因果推論のあらましは説明してるものの、これだけ読んで実際の分析がすぐにできるというものではない。この特集中にもいくつか文献の紹介があったが、いくつか参考になる文献を私の方からも挙げておきたいと思う。

  1. ブログ「医療政策学×医療経済学
    • このブログは先に紹介した「準実験のデザイン」を書いた津川友介氏がやっているブログで、因果推論に関する話題も色々載っている。なお、津川氏はダイヤモンド社 から、2016年12月に『原因と結果の経済学』という本を出すそうだ。因果推論に関して、一般向けに易しく説明するとのことだ。『岩波データサイエンス Vol. 3』の内容が難しいという人は、この『原因と結果の経済学』を読んでみても良いかもしれない。
  2. 星野崇宏.(2009). 『調査観察データの統計科学――因果推論・選択バイアス・データ融合』東京:岩波書店.
    • 因果推論に関する定番書。良書だがそれなりに難しい。
  3. 高井啓二・星野崇宏・野間久史.(2016). 『欠測データの統計科学――医学と社会科学への応用』東京:岩波書店.
    • こちらは、因果推論そのものについて詳しく扱った書籍ではないが、傾向スコアなどの話が出ている。
    • この本は、4巻シリーズの第1巻に当たる。いつか出るはずの第2巻は『選択バイアスと統計的因果推論』というタイトルのものなので、因果推論についてより詳しい説明があることが期待される。
  4. 森田果.(2014). 『実証分析入門――データから「因果関係」を読み解く作法』東京:日本評論社.
    • 社会科学における実証分析の手法を解説した書籍である。扱われている手法は多岐にわたるが、第16章「因果効果の推定」から第24章「イベントスタディ」あたりが、因果推論に関する部分に相当する。
脚注
  1. もちろん必ず確実に分かるというわけではなく、それなりにもっともらしいものが分かるということに過ぎない。それは統計の他の分野とも共通する話だ。 []
  2. 例えば、握力と計算ドリルの点数の間には因果関係がなさそうなのに、実際には相関が観察されるという例が挙げられている。これは、学年が上がるにつれて握力が上がることと、学年が上がるにつれて計算ドリルの点数が上がることによるものである。つまり、学年という共通の要因が影響を与えて(=交絡して)、相関を生み出しているのである。 []