【翻訳】ダメな統計学 (2) データ分析入門

概要

この章は、統計分析でよく用いられるp値という概念について説明している。この概念は本文で触れられているように非常に誤解されやすい概念である。きちんとした統計分析を行うにはこの概念をしっかり理解しなくてはならない。

本文

『ダメな統計学』の目次は「ダメな統計学：目次」を参照のこと。この章に先立つ文章は「はじめに」を参照のこと。

実験科学の多くは、つまるところ、違いを測定するということに行き着く。例えば、ある薬は他のものよりうまく働くか、ある種の遺伝子を持つ細胞は他の種類の遺伝子を持つ細胞より酵素をたくさん合成するか、ある種の信号処理アルゴリズムは他のものよりパルサー^[1] をよく検出できるか、ある触媒は化学反応をより効果的に加速するかといったたぐいの問題だ。

となると、統計の多くは、こういった差について判断をすることに行き着くことになる。まずは「統計的有意差」を話題にしよう。偶然以外の何かのせいだと言えるほど測定と測定の間の差が本当に大きいかについて判断する方法を統計学者が工夫してきたからだ。

あなたがかぜ薬を試験しているとしよう。あなたの新薬を使うと、かぜの症状が続く期間が1日短くなると期待されている。このことを証明するために、かぜをひいた患者を20人見つけ、その半数に新薬を、残りの半数に偽薬^[3] 与えたとしよう。そして、かぜの長さを調べ、薬のあるなしによってかぜの長さの平均がどうなるのか分かったとしよう。

だけれども、かぜは全てが同じというものではない。平均的なかぜは1週間続くかもしれないが、数日しか続かないかぜもあるし、2週間かそれ以上続いて家の中にあるティッシュペーパーを全て使い果たすほどのかぜだってある。本物の薬を投与された方の10人の患者が、2週間のかぜをひく不幸なタイプだった場合、新薬はかえって状況を悪化させると間違った結論を出してしまうかもしれない。どうすれば、不幸な患者がいると示すのではなく、あなたの薬が機能することを示すと判断できるのだろうか。

p値の力

統計がその答えを示してくれる。もし、典型的なかぜの症例の分布——短いかぜ、長いかぜ、平均的なかぜのそれぞれにどれだけの患者がかかるかという大まかな話——を知っていれば、かぜ患者を無作為に選んだ標本で、平均より短いかぜ、平均より長いかぜ、ちょうど平均のかぜがどれだけありそうかを判断できる。統計的検定を行うことで、「もし私の薬が全く効果がなかったとしたら、私が観察したようなデータを観察する確率はどれほどか」といった質問に答えることができる。

これは、ちょっとややこしいから、もう一回読んでほしい。

直感的には、このことがどう働くかを理解できる。1人に対してしか薬を試していないとき、患者の約半分は平均より短いかぜになるのだから、その人が平均より短いかぜになったとしても何も驚くことはない。1,000万人の患者に対して薬を試したとき、その薬が機能していない場合、全員が平均より短いかぜになることはものすごくありえないことだ。

科学者が用いる一般的な統計的検定では、$p$値という数値が出てくる。この数値は、上に述べたことを数量の形で表したもので、以下がその定義だ。

$p$値は、効果がないか、差異がないという仮定（帰無仮説）のもとで、実際に観測された結果と同じか、それよりも極端な結果が出る確率として定義される。

S. N. Goodman. Toward evidence-based medical statistics. 1: The P value fallacy. Annals of Internal Medicine, 130:995–1004, 1999.

だから、100人の患者に薬を与えて、これらの患者のかぜが平均して1日短いことが分かった場合、この結果に対する$p$値は、薬が全然働かなかったときに100人の患者がたまたま1日短いかぜをひいていた確率のことなのだ^[4] 。明らかに、この$p$値は効果の大きさ——かぜが4日短いのはかぜが1日短いことよりもありえそうにない——と薬物治療の調査を行った患者の数に依存する。

これは、理解するにはややこしい概念だ。$p$値というのは、正しさを測定するものでなければ、違いがどれだけ重大かを測定するものでもない。$p$値とは、グループ間で本質的な違いがないにもかかわらず、違いがあることを示唆するデータが得られたときに、どれだけ驚くべきかを示す値なのだ。より大きな差異があったり、より多くのデータによって支えられたりしたものは、より驚くべきことを示唆し、より小さい$p$値を示唆する。

このことを「本当に違いはあるのか」という問いに対する答えに翻訳することは簡単ではない。ほとんどの科学者は、単純でおおざっぱなやり方を使っている。もし $p$が0.05より小さければ、薬が本当は働いていない場合にこうしたデータを得る確率は5%しかないわけだから、薬と偽薬の間の差が「有意である」と呼ぶのである^[5] 。もし、$p$が0.05より大きければ、差は有意でないと呼ぶ。

しかし、限界がある。$p$値は驚きを測定するもので、効果のサイズを測定するものではない。極めて大きい効果を測定するか——「この薬は4倍長生きさせる」——ごく小さな効果だが非常に確実な効果を測定することで、きわめて小さい$p$値を得ることができる。統計的に有意であることは、結果が実際に意味があるものであることを意味しない。

同様に、統計的に有意でないことも解釈しにくい。完璧にすばらしい薬があったとしても、それを10人にしか試さなかったとしたら、患者に対する本当の改善と単なる幸運との違いを見分けることは困難だろう。あるいは、何千人もの人に試すことができたとしても、その薬が3分間しかかぜを縮めないとしたら、差を検出することは単純に不可能であろう。統計的に有意な差がないことは、差が全然ないことを意味しないのだ。

仮説が本当かどうかを判断する数学的な手段はない。仮説がデータと矛盾していないかを見ることしかできない。そして、データが足りなかったり、はっきりしなかったら、結論は明確なものにはならない。

だが、我々はそれでやめるわけにはいかないのだ。

この文章の続きは「検定力と検定力の足りない統計」を参照のこと。

脚注

訳注：パルサー (pulser) とは、短い周期で電波やX線を発する天体のことである。 [↩]
画像出典：Pixabayよりblickpixel氏のパブリックドメイン画像を使用。 [↩]
訳注：偽薬 (placebo) とは、見た目こそ普通の薬のようだが、実際には薬としての効果が全くないもののことである。なお、偽薬を患者に与える場合、普通は薬としての効果がないとは言わないでおく。 [↩]
訳注：原文のここでの$p$値の説明はあまり正確ではない。より正確に言えば、「薬が全然働かなかったときに100人の患者が平均してたまたま1日以上短いかぜをひいていた確率」になる。 [↩]
訳注：ここの例で0.05より大きいか小さいかが有意であるかどうかの基準になっている。こうした基準は、有意水準 (significance level) と呼ばれる。科学研究においては、慣例的に0.05を有意水準とすることが多い。しかし、0.05を有意水準とすることは単なる慣習に過ぎず、この数値を有意水準として選ぶ客観的な根拠があるわけではない。 [↩]