【翻訳】ダメな統計学 (5) p値と基準率の誤り

概要
この章では、何度も比較を行うことの問題点について扱っている。何度も比較を行えば、本当は存在しない現象が存在するかのように判断されてしまう可能性がある。

本文

『ダメな統計学』の目次は「ダメな統計学:目次」を参照のこと。この章に先立つ文章は「擬似反復:データを賢く選べ」を参照のこと。

$p$値が解釈しにくいことについてはすでに見てきた。統計的に有意でない結果が得られたからといって、違いがないことを意味するわけではない。では、有意な結果が得られた場合はどうだろうか。

例を1つ見てみよう。ガンを治す見込みがある薬を100種類試験しているとする。これらの薬のうち、実際には10種類しか効かないのだが、どれが効くのかは分からない。よって、効く薬を見つけるために実験をしなくてはならない。実験においては、薬に有意な利点があることを示すために、偽薬に対して$p < 0.05$となる薬を探すことになる。

これを図示してみよう。図の1マスが1種類の薬を表している。青いマスは、効く薬を示す。

100種類の薬のうち、真に有効なのは青で示された10種類である。
100種類の薬のうち、真に有効なのは青で示された10種類である。

既に見てきたように、ほとんどの試験は、全ての良い薬を完全に発見できるわけではない。検定力が0.8であると仮定しよう。このとき、10種類の良い薬のうち、紫色で示された8種類を正確に検出することができるだろう。

真に有効な10種類の薬のうち、正確に検出されるのは紫色で示した8種類である。
真に有効な10種類の薬のうち、正確に検出されるのは紫色で示した8種類である。

そして、90種類の効果のない薬のうち、5種類が有意な効果があると結論づけることになるだろう。なぜか。$p$値は効果がないという仮定の下で計算されるということを思い出してほしい。だから、$p = 0.05$というのは、効果がない薬が効いていると誤って結論づける可能性が5%あるということを示しているのだ [1]

よって、実験を行うと、効く薬が13種類あると結論づけることになる。良い薬が8種類と、赤で示された誤って含めてしまった薬が5種類だ。

90種類の効果のない薬のうち、赤色で示した5種類が有意な効果があると判断されてしまう。
90種類の効果のない薬のうち、赤色で示した5種類が有意な効果があると判断されてしまう。

どの「効く」薬についても、本当に有効である可能性はたった62%である。もし、100種類の中から無作為に薬を1種類選んで試験を行い、$p < 0.05$という統計的に有意な利点を発見したとしても、その薬が実際に有効である可能性は62%しかないのである。統計学の用語で言うと、偽発見率(本当は偽陽性であるのに統計的に有意な結果が出る割合)が38%になるということなのである。

ここでは、有効なガン治療薬の基準率 [2] がとても低い——100種類の臨床試験薬のうち実際に効くのは10%だけである——ので、試験される薬は多くが効かず、偽陽性に遭遇する機会が多い。もし、完全に効果がない薬をトラック1台分あるという不幸に襲われれば、基準率が0%ということになり、統計的に有意な結果が真である可能性は0%になる。にもかかわらず、トラックの中の薬のうち5%について、$p < 0.05$という結果が得られる。

「$p$値はエラーがありえないことを示す兆候だ」と言う人を見たことがしばしばあるだろう。そう述べる人は、$p=0.0001$という結果を得て、「統計的な偶然としてこの結果が出てくるのは1万回に1度しかない」 [3] と言う。それは違う。これは基準率を無視している。そして、このことは基準率の誤りと呼ばれる。$p$値がどう定義されるか思い出してみよう。

$p$値は、効果がないか、差異がないという仮定(帰無仮説)のもとで、実際に観測された結果と同じか、それよりも極端な結果が出る確率として定義される。

$p$値は薬が有効でないという仮定の下で計算され、得られたデータと同じか、さらに極端なデータが得られる確率について教えてくれる。薬が有効である確率については教えてくれないのである。

「おそらく正しいだろう」と述べるために$p$値を使う人がいたら、このことを思い出そう。そうした人の研究が誤っている確率は、ほとんど確実にぐんと高い。開発初期段階の薬の試験(こうした薬は試験を切り抜けることがほとんどない)のように、ほとんどの検定された仮説が偽となる分野においては、$p<0.05$となる「統計的に有意な」結果のほとんどが実際にはまぐれあたりである可能性が高い。

良い例が、医療上の診断検査だ。

医療検査における基準率の誤り

乳ガンのスクリーニング [4] にマンモグラフィー [5] を使うことについて、論争がある。不必要な生体組織検査・手術・化学療法といった偽陽性の結果でもたらされる危険の方が、ガンの早期発見の利益を上回ると主張する人もいる。これは統計の問題だ。このことについて数値的に評価してみよう。

マンモグラフィーを受けた女性のうち、0.8%が乳ガンであるとしよう。乳ガンの女性のうち、マンモグラフィーで乳ガンが正確に発見できるのは、90%である。(90%というのはこの検査の検定力に相当する。そこにガンがあると分からないのであれば、どれだけのガンが見逃されているか判断しがたいという意味で、これは推定量に過ぎない。)ただし、全く乳ガンにかかっていない女性のうち、約7%がマンモグラフィーで陽性が出て、さらなる生体組織検査などの検査が必要になる。もし、マンモグラフィーで陽性が出た場合、乳ガンにかかっている確率はどれぐらいだろうか?

検査対象者が男性である可能性 [6] [7] を無視すれば、この答えは9%になる [8]

ガンを患っていない女性の7%にしか偽陽性にならない検査(これは$p<0.07$である検定に相当する)であるにもかかわらず、陽性の結果が出た場合の91%が偽陽性なのである。

これはどう算出されたのだろうか。ガンの治療薬の例と同じ方法によって算出している。マンモグラフィーを受けることを選んだ女性の中から無作為に1000人選んだとしよう。そのうち、8人(0.8%)が乳ガンにかかっている。マンモグラフィーは、乳ガンの場合の90%を正確に発見するので、8人中7人の女性についてガンが発見されることになる。しかしながら、992人の乳ガンではない女性がおり、そのうち7%がマンモグラフィーで偽陽性の結果を得る。つまり、70人の女性 [9] が誤ってガンであるとされてしまうのである。

合計すると、77人の女性がマンモグラフィーで陽性となり、そのうち7人が実際に乳ガンであることになる。マンモグラフィーで陽性だった女性のうち、9%しか乳ガンにかかかっていないのである。

もし統計学の学生や科学の方法論の講師にこのような質問をしたら、3分の1以上が間違える [10] 。もし医者に聞いたら3分の2が間違える [11] 。彼らは$p < 0.05$という結果は95%の確率でその結果が正しいということを意味すると間違った結論を下すのである。しかし、今までの例から分かるように、陽性の結果が真となる可能性は、検定された仮説が真である比率に依存する。幸運なことに、いつもわずかな比率の女性しか乳ガンにかかっていないのだ。

統計の入門の教科書を調べてみれば、同種の誤りがたびたび見つかるだろう。$p$値は直感に反するものであり、基準率の誤りはどこにでもあるのだ。

基準率の誤りに対して武器をとれ

基準率の誤りをおかすために、先進的なガン研究や早期のガンのスクリーニングを行う必要はない。社会に関する研究を行っている場合はどうだろうか。アメリカ人が自衛のために銃をどれだけの頻度で使うのか調査したいとしよう。銃規制に関する議論は、結局のところ、自衛の権利が中心となっている。このため、銃が防衛のために広く使われているかどうかについて、そして自衛のための銃の使用が殺人などの否定的な面がある銃の使用を上回っているかどうかについて、確認することが重要である。

このデータを得る方法として、調査を通じてデータを手に入れるということがあるだろう。アメリカ人の代表的標本に対して、銃を持っているかどうか、持っているとしたら盗みなどを目的とした住居侵入から家を守ったり路上強盗から身を防いだりするために銃を使ったことがあるかを問うことができるだろう。こうして得られた数値を、法執行機関の統計 [12] から得られる殺人での銃使用の数値と比べることができよう。そして、利点が否定的な面を上回っているかどうかについて、データに基づいて判断することができるだろう。

このような調査は実際に行われたことがあり、興味深い結果を残している。1992年に行われたある電話での調査では、アメリカの民間人が自衛のために銃を用いたことが毎年250万回に達すると推定している。すなわち、アメリカの成人の1% [13] が小火器で身を守ったということだ。さて、そのうち34%が盗みなどの犯罪目的の住居侵入に対してのものである。よって、84万5千件の住居侵入が銃の所有者によって防がれたことになる。しかし、1992年には誰かが家にいるときに行われた犯罪目的の住居侵入は130万件しか起きていなかった。そのうち、3分の2は家の所有者が眠っていたときに発生し、侵入者が去った後に発覚したものであった。つまり、家の所有者が家にいて起きた状態で侵入者と対面した住居侵入は43万件あり、そのうち我々が信じ込まされているように84万5千件が銃を持ち歩く住人によって防がれたのだ [14]

あれれ。

何が起きたのだろうか。なぜくだんの調査は自衛のための銃の使用を過剰に見積もったのだろうか。これは、マンモグラフィーが乳ガンにかかっていることを過剰に見積もったことと同じ理由による。偽陽性の可能性が偽陰性の可能性よりずっと高いのだ。99.9%の人が自衛のために銃を使ったことがないのに、そのうち1%がふざけてどんな質問に対しても「はい」と答え、1%がより男らしく見せるために「はい」と答え、1%が質問内容を誤解して「はい」と答えたとすれば、自衛のための銃の使用を非常に過剰に見積もることになる。

偽陰性の方はどうだろうか? 先週強盗を銃で撃ったにもかかわらず「いいえ」と答えた人によって、偽陽性と偽陰性の数がほぼ同じとなり、相互に打ち消し合う可能性はあるだろうか。いや、そんなことはない。自衛のために銃を本当に使った人がほとんどいない場合、偽陰性となる可能性はほとんどない。偽陽性の例が偽陰性の例よりずっと多いのである。

これは先に見たガン治療薬の例に非常に類似している。ここで、$p$は誰かが自衛のために銃を使ったことがあると間違って主張する確率である。$p$がたとえ小さくても、最後の答えは大きく誤ったものとなるのである。

$p$を小さくするために、犯罪学者はより詳細な調査を行う。例えば、全国犯罪被害調査 [15] では、研究者が詳細な対面インタビューを行う。そのインタビューでは、回答者に対して、自衛のために銃を使用したことと犯罪について詳細にたずねる。この調査ではずっと詳しい内容が分かるので、研究者は事件が自衛に関する基準に合致しているかをよりうまく判断できる。その結果はぐんと小さなものであった。つまり、自衛のための銃の使用は百万単位で起きているのではなく、毎年6万5千件程度しか起きていない。調査に回答する人が、そうした事件を隠す可能性もあるだろうが、膨大な過剰見積もりの可能性に比べれば、ぐんと可能性が低い。

最初に成功しなかったら、もう一度、もう一度

基準率の誤謬は$p < 0.05$という有意性の基準から予期されるところよりも偽陽性はずっと出やすいということを示している。けれども、ほとんどの現代の研究は有意性の検定を1回だけ行うわけではない。現代の研究は、最も有意な効果を探し出すべく、様々な要因の効果を比較する。

例えば、ゼリービーンズがニキビを引き起こすかどうかについて、ゼリービーンズの色ごとにニキビに対する効果を検定するとしよう。

様々な色のゼリービーンズ
様々な色のゼリービーンズ。 [16]

想像できるだろうが、比較を何度も行うことは偽陽性の可能性を何度も起こすことを意味する。例えば、全くニキビを引き起こさない20種類のゼリービーンズフレーバーに対して検定し、$p<0.05$の有意度で関連性を探せば、偽陽性が得られる確率は64%になる [17] [18] 。45種類の材料に対して検定すれば、偽陽性の確率は90%の高きに至る。

多重比較をおかすことは簡単で、20種類の薬の候補を試すといったことほど明白なものである必要はない。12人の患者の症状を12週間にわたって追跡し、どの週でもよいから有意な利益があるかを検定してみよう。さあ、これで比較は12回だ。危険な副作用の候補23種類について、副作用が発生するか確かめてみよう。ああ、罪を犯してしまった。原子力発電所への近さ、牛乳の消費量、年齢、男のいとこの数、好きなピザのトッピング、今の靴下の色、そして他の測定しやすい要因をたくさん問うような10ページのアンケートを送ってみよう。何かがガンを引き起こすと発見するだろう。うんざりするほど十分な数の質問をすれば、それは不可避なのだ。

1980年代に行われた医学に関する試験について、平均的な試験は治療上の比較を30回していたことを示した調査結果がある。これらの医学に関する試験の半数以上においては、研究者が多くの比較をしてしまったために、偽陽性の可能性が非常に高いものとなっている。このため、統計的に有意な結果の報告に対して疑念が投じられた。研究者は、統計的に有意な効果を発見したのかもしれないが、単に偽陽性だった可能性がある [19]

多重比較の問題を解決するテクニックはある。例えば、ボンフェローニ法 (Bonferroni correction) は、試験で比較を$n$回行う場合は、有意差があるとする基準を $p<\frac{0.05}{n}$にすべきだというものだ。この方法は、偽陽性の起きる確率を、$p<0.05$という基準のもとで1回だけ比較したのと同じぐらいに下げる。だが、想像できるように、このことは検定力を下げてしまう。統計的に有意であると結論づける前に、ずっと強い相関を要求するからだ。これは難しいトレードオフだ。痛ましいことにほとんどの論文はこのことを検討しようともしないのだが。

脳イメージングでの燻製ニシン

神経科学者は日常的に膨大な数の比較を行う。神経科学者は、fMRI [20] を使った研究をしばしば行う。そうした研究では、被験者が課題を実施する前と実施した後に、被験者の脳の3次元イメージが撮影される。イメージは脳内の血の流れを示し、様々な課題をした時に脳のどの部分が一番活発になるかを明らかにする。

しかし、脳のどの領域が課題をしている間に活発になるかをどうやって決めるのだろうか? 単純な方法として、脳の画像をボクセル (voxel) と呼ばれる小さな立方体に分割するものがある。課題実施の画像でのボクセルを課題実施のボクセルと比較し、血流の差が有意であれば、脳の部位が課題に関わっているとの結論を出すことができる。問題は比較すべきボクセルが何千とあり、偽陽性が出る可能性が非常に高いことである。

例えば、ある研究では参加者の自由回答メンタライジング [21] 課題 (open-ended mentalizing task) の効果が調べられた。被験者は「規定された感情に関する値をもった社会的状況にある人間の個人を描写した一連の写真」を見せられ、「写真の中の個人はどのような感情を経験しているにちがいないかを決める」ことが求められた。この実験の間、様々な感情と論理に関する脳の中枢が光った [22] を想像できるだろう。

データが分析され、脳のある領域で、課題中に活動が変化することが分かった。イメージを比較することで、メンタライジング課題の前と後とで、脳内のとある81立方ミリメートルのかたまりに$p=0.001$の違いがあることが示された。

タイセイヨウサケ
タイセイヨウサケ。 [23]

研究に参加した人? いつもとは違って、10ドルが払われる大学の学部生ではない [24] 。被験者は3.8ポンド(およそ1.72 kg)のタイセイヨウサケ [25] で、「スキャンをした時は生きていなかった」ものである [26] [27]

もちろん、ほどんどの神経科学の研究はこれよりも洗練されている。全て一緒に変化するボクセルの集まりを探す方法や何千もの統計的検定が行われても偽陽性率を制御するテクニックがある。これらの方法は神経科学の文献では今では広く行われており、先程述べたような単純な誤りをしているような論文はほとんどない。しかし、不幸なことに、ほとんど全ての論文が、独自の方法でこの問題に対処している。241本のfMRIの研究を調べたところ、223種類の特有の分析戦略が用いられていることが分かった。このことは、後で議論するように、統計的に有意な結果を出すのに、研究者が非常に柔軟に対処できるようにしてしまっている [28] [29]

偽発見率を制御する

先に、多重比較を修正するテクニックが存在すると述べた。例えば、ボンフェローニ法では$p < \frac{0.05}{n}$となるところを求めることで、正しい偽陽性率を得ることができるとされている(ただし、ここで$n$は統計的検定を実行する回数を指す)。もし、20回の比較をする研究で、実際には存在しない効果が統計的に有意だと誤って判断する可能性を確実に5%にとどめたかったら、$p < 0.0025$というしきいを用いることになる。

これには問題がある。統計的に有意な結果があると宣言するために必要な$p$の閾値を低くすることで、検定力を大幅に下げてしまい、真の効果を偽の効果と同じぐらい発見できなくしてしまう。ボンフェローニ法よりも、洗練された方法がいくつかある。これらの方法は検定力を向上させると言う問題のある種の統計的性質について優位に立っているが、魔法の解決手段ではない。

しかも、こうした手法は基準率の誤りの苦労から解放してくれない。$p$の閾値にまどわされて、誤って「私が間違っている可能性は5%しかない」と主張してしまう可能性はあるのだ。こうした手法では、偽陽性の可能性が減るだけだ。科学者がより興味を持つのは、偽発見率だ。偽発見率とは、統計的に有意な結果が偽陽性である割合のことだ。この割合を制御してくれる統計的検定はないのだろうか。

長年、この質問に対する答えは単に「ない」というものだった。基準率の誤りの節で見たように、検定された仮説のうちいくつが真であるかということについて仮定をすれば、偽発見率を計算できる。しかし、何となく推測するよりは、データから情報を見つけたい。

1995年、ベンジャミーニとホッホベルクは、より優れた答えを提示した。彼らはどの$p$値を統計的に有意なものであると考えるべきかについて見分ける非常に簡単な方法を考案した。今まで数学的に詳しいことについては触れないでいたが、この手続きがいかに簡単であるのかを示すために、数学的な話を述べようと思う。

  1. 統計的検定を行い、それぞの検定について$p$値を求めよ。$p$値のリストを作って昇順に並べよ。
  2. 偽発見率を選んで、それを$q$とせよ。統計的検定の数を$m$とせよ。
  3. $p \le \frac{iq}{m}$となるような$p$値のうち最大のものを見つけよ。ただし、$i$は並び替えられたリストの中で、$p$値が何番目に位置するかを示すものとする。
  4. その$p$値とそれより小さい$p$値を統計的に有意であると見なせ。

できた! この手続きは全ての統計的に有意な結果のうち$q$%を超えて偽陽性になることはないということを保証する [30]

ベンジャミーニ=ホッホベルク法 (Benjamini-Hochberg procedure) は高速かつ有用であり、一定の分野の統計学者や科学者には広く用いられている。通常、この手法は、ボンフェローニ修正やその類似した手法に比べて検定力が良くなり、しかもより直感的な結果を返す。この手法は、様々な状況に適用可能であり、ある種のデータを検定しているとき、この手法の変種がより良い検定力をもたらす。

もちろん、これは完璧なものではない。ある種の変わった状況において、ベンジャミーニ・ホッホベルクの手法は、馬鹿げた結果を導く。そして偽発見率をコントロールすることから逃れることが常に可能であることが数学的に示されている。しかし、これは始まりだ。無いよりずっとましなのだ。

この文章の続きは「有意であるかないかの違いが有意差でない場合」を参照のこと。

脚注
  1. 訳注:厳密に言えば、90種類の薬の5%なので、4.5種類ということになる。ただ、種類の数が整数個にならないと分かりにくいので、切り上げて5種類ということにしたのであろう。 []
  2. 訳注:調査対象となっているもののうち、真に有効であるものの割合を基準率(base rate)と呼ぶ。ここのガン治療薬の例で言えば、100種類の薬のうち、真に有効なのは10種類なので、$10 \div 100 = 0.1 = 10%$が基準率となる。 []
  3. 訳注:$p$値の意味について誤解している人は、しばしば「統計的な偶然としてこの結果が出てくるのは1万回に1度しかない」と述べるのに加えて、「だから、有効である確率は1万回に9,999回、つまり99.99%だ」と述べることがある。もちろん、こう考えるのは誤りである。 []
  4. 訳注:スクリーニングとは、病気の疑いがある人を選別することである。 []
  5. 訳注:マンモグラフィーとは触診では分からないような小さな乳ガンを発見するために、乳房に対して行われるX線検査のことである。 []
  6. 原注:興味深いことに、男性であることは乳ガンにかかる可能性を排除しない。男性であることは、乳ガンになる可能性を非常に低くするにすぎない。 []
  7. 訳注:乳ガンは女性に多い病であるが、男性でもまれにこの病にかかることがある。日本乳癌学会が2014年に出した『全国乳がん患者登録調査報告:2011年次症例』によれば、2011年の日本における乳ガン発症数として、女性の48,262症例と男性の219症例が報告されている。なお、これは2011年に「報告」された数なので、同年に日本で実際に乳ガンを発症した人を完全に網羅した数ではない。また同一患者が両側の乳房でガンになった場合は2症例と数えられている。 []
  8. 原注:W. Krämer, G. Gigerenzer. How to Confuse with Statistics or: The Use and Misuse of Conditional Probabilities. Statistical Science, 20:223–230, 2005. []
  9. 訳注:厳密に言えば、992人の7%なので、69.44人となる。分かりやすくするために、キリの良い70人にしたのであろう。 []
  10. 原注:W. Krämer, G. Gigerenzer. How to Confuse with Statistics or: The Use and Misuse of Conditional Probabilities. Statistical Science, 20:223–230, 2005. []
  11. 原注:R. Bramwell, H. West. Health professionals’ and service users’ interpretation of screening test results: experimental study. BMJ, 2006. []
  12. 訳注:原文は“law enforcement statistics”と書かれている。アメリカでは、警察 (police) 以外にも犯罪捜査に当たる公的組織が多数存在し、それらをまとめて法執行機関と呼ぶ。日本の感覚からすれば、「警察統計」という意味になる。 []
  13. 訳注:ここでは「成人の1%」と書かれているが、正しくは、「総人口の1%」であるべきである。アメリカ合衆国国勢調査局の推計によれば、1992年7月1日のアメリカの総人口、すなわち未成年者と成人を含めた人口は、およそ2億5503万人と推計されている。その1%は250万になるので、ここで触れられている銃の使用回数の250万回に符合するわけである。 []
  14. 原注:K. Huwiler-Müntener, P. Jüni, C. Junker, M. Egger. Quality of Reporting of Randomized Trials as a Measure of Methodologic Quality. JAMA, 287:2801–2804, 2002. []
  15. 訳注:アメリカにおける全国犯罪被害調査 (National Crime Victimization Survey; NCVS) とは、1973年から行われている犯罪被害に関する調査であり、アメリカ合衆国国勢調査局と司法統計局によって実施されている。 []
  16. 画像出典:PixabayよりKasman氏のパブリックドメイン画像を使用。 []
  17. 訳注:20回の検定を行った時、偽陽性が得られる確率が64%になることは以下のようにして計算できる。まず、検定を1回実施したときの$p=0.05$というのは、偽陽性になる確率が5%であることを示している。これは逆に言うと、偽陽性にはならない確率が95% (0.95)であることを示している。2回検定を実施した時に、2つの検定が独立のものであるとすれば、2回とも偽陽性にならない確率は、0.95の二乗 ($0.95 \times 0.95$) で求められる。同様に、20回検定を実施した時に20回全てで偽陽性ににならない確率は、0.95の20乗、すなわち$0.95^{20} = 0.36$と求められる。20回全てで偽陽性にならない確率が0.36 (=36%) であるから、逆に言えば、1回でも偽陽性が出る確率は$1 – 0.36 = 0.64$、すなわち64%となる。 []
  18. 原注:D. G. Smith, J. Clemens, W. Crede, M. Harvey, E. J. Gracely. Impact of multiple comparisons in randomized clinical trials. The American Journal of Medicine, 83:545–550, 1987. []
  19. 原注:D. G. Smith, J. Clemens, W. Crede, M. Harvey, E. J. Gracely. Impact of multiple comparisons in randomized clinical trials. The American Journal of Medicine, 83:545–550, 1987. []
  20. 訳注:fMRI (functional Magnetic Resonance Imaging) とは、強い磁場の中にさらすことにより、脳内の血の流れを画像の形にする手法のことである。日本語にすれば、機能的磁気共鳴画像化となる。また、その手法を実施するための装置もfMRIと呼ばれる。 []
  21. 訳注:他者の心の中に思い浮かんでいることを想像することをメンタライジングと呼ぶ。 []
  22. 訳注:脳のある領域が活性化している時、fMRIで撮った脳のイメージで、その領域は光っているように見える。 []
  23. 画像出典:Wikipedia Commonsよりパブリックドメインを使用。 []
  24. 訳注:神経科学や心理学では、大学生に薄謝を払って実験に参加してもらうことが多い。 []
  25. 訳注:タイセイヨウサケは、アトランティックサーモン (Atlantic Salmon) とも呼ばれ、北大西洋と北大西洋に注ぎ込む河川に生息するサケ科の魚である。 []
  26. 訳注:脳のどの部位が働いているかどうかを調べるためには、少なくともfMRIをかけられる生物が生きている必要がある。しかし、ここではすでに生きていないわけだから、実験として全く無意味なのである。なお、この実験をした人たちは、生きていないタイセイヨウサケの脳の活動を真面目に調べたかったわけではない。むしろ、統計の手法を濫用すれば無から有を生むことありうるということを示し、統計手法をしっかりと使うように勧めるために、あえて意味のない実験をしたのである。ちなみに、このタイセイヨウサケに対して行われた研究は、2012年のイグノーベル賞を受賞している。 []
  27. 原注:C. Bennett, A. Baird, M. Miller, G. Wolford. Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction. Journal of Serendipitous and Unexpected Results, 1:1–5, 2010. []
  28. 訳注:要するに対応方法がたくさんあるので、研究者が自分にとって都合が良い手法を恣意的に選んでしまうのである可能性が出てきてしまうのである。 []
  29. 原注:J. Carp. The secret lives of experiments: methods reporting in the fMRI literature. Neuroimage, 63:289–300, 2012. []
  30. 原注:Y. Benjamini, Y. Hochberg. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B, 289–300, 1995. []