【翻訳】ダメな統計学 (8) 研究者の自由：好ましい雰囲気？

概要

この章では、実際に統計的な分析を行う際には、どう分析するかについて決定しなくてはならないことが多数あることを示している。ただし、あまり気ままに分析を行うことが許されれば、研究者にとって都合の良い結果が出てくるだろうという警告も述べられている。

本文

『ダメな統計学』の目次は「ダメな統計学：目次」を参照のこと。この章に先立つ文章は「停止規則と平均への回帰」を参照のこと。

統計は退屈で単調なものだという広く知られた誤解が存在する。たくさんのデータを集めて、数をExcelとかSPSS^[1] とかR^[2] とかにつめこんで、そしてソフトがカラフルな図を出力するまで棒でたたく。おしまい！統計家のやるべきことは、結果を読み上げるだけだ。

だけれども、どのコマンドを使うかについては選ばなくてはならない。2人の研究者が同じ問題に答えるために、全く違った統計分析をすることもありうる。決めなくてはならないことがたくさんあるのだ。

統計分析の際には様々な可能性 (possibility) が存在する。Pixabayよりパブリックドメイン画像を使用。

どんな要因を調節するかを決めなくてはならない。例えば、医学に関する試験ならば、患者の年齢、性別、体重、BMI、以前の病歴、喫煙の有無、薬の使用の有無、あるいは研究の前に行われた医療検査の結果などを統制^[3] することになるかもしれない。これらの要因のうち、どれが重要で、どれが無視できるものかということも決めなくてはならない。
どんな事例を除外するかを決めなくてはならない。食事のプランを試しているときに、コントロールできない下痢で倒れてしまった被験者がいたら、結果が正常なものにはならないから、その被験者を除外したいと考えるかもしれない。
外れ値 (outlier) にどう対処するかを決めなくてはならない。理由が分かるものにせよ分からないものにせよ、普通のものから外れてしまっている結果というものは常にあって、そうしたものを除外したり、特別に分析したりしたいかもしれない。どんな事例を外れ値と見なして、そしてどう対処すべきなのかを決めなくてはならない。
グループをどう定義するかを決めなくてはならない。例えば、患者を「肥満」・「正常」・「痩せ」というグループに分けたい時、どこに境界を設定すべきか決めなくてはならないし、BMIが「肥満」の範囲に入ってしまっているむきむきのボディビルダーについてはどうすれば良いか決めなくてはならない。
欠損データ (missing data) についてどうすべきかを決めなくてはならない。新しい薬で、ガンの寛解（かんかい）^[4] 率を試験することがあるかもしれない。5年に及ぶ調査を実施するとしても、6年後あるいは8年後に腫瘍が再び出現する患者がいるかもしれない。データの中にはこうした病気の再発が含まれない。薬の有効性について測定する際に、このことについてどう説明すべきかを決めなくてはならない。
データをどれだけ集めるべきかを決めなくてはならない。自信が持てる結果が出たらデータ収集をやめるべきか、全てのデータが集まるまで計画したどおりのデータ収集を続けるべきかを決めなくてはならない。
結果をどう測定するかを決めなくてはならない。薬は、患者の主観に基づく調査でも評価できるだろうし、医学検査の結果でも、ある症状の罹患率でも、病気の継続期間などの基準でも評価できるだろう。

結果を得るために、どの手続きが最も適切かを見る探求・分析が何時間もかかるだろう。論文では、実施した統計分析についての説明を通常行う。しかし、なぜ研究者がある方法を選んで他の方法を選ばなかったかということについてはいつも説明するわけではないし、他の方法を選択した場合どんな結果が得られただろうかということについても説明するわけではない。研究者は自身が適切だと感じるものを何でも選ぶ自由がある。そして、研究者は正しい選択をするかもしれない。だが、データに対して異なった分析をした場合、どうなるだろうか。

シミュレーションによれば、単純に異なった変数を調整したり、異なった事例のセットを排除したり、外れ値の扱いを変えたりすることで、2倍の違いがある効果量^[5] を得ることができる^[6] 。効果量というのは、薬が引き起こす違いがどれくらいかを教えてくれる、例のきわめて重要な数字のことだ。だから、どうやらやりたいように分析する自由があれば、結果を大いにコントロールすることができるようなのだ^[7] 。

統計の自由による最も気がかりな影響は、研究者が自分にとって一番都合の良い統計分析を選んでしまうことだ。何かが出てくるまでデータをいじくりまわすことで、統計的に有意な結果を恣意的に生み出すのだ。与えられたデータセットに対してうまくやれる手法が見つかるまで異なった統計分析手法を研究者に試させつづけるだけで、偽陽性率は50%に跳ね上がりうるということが、シミュレーションによって示唆されている^[8] 。

医学の研究者はこういったことを防ぐ手法を工夫してきた。データがどのように集められてどのように分析されるのかについて説明するために、臨床試験のプロトコルの草稿を出すことが研究者にしばしば求められる。研究者がデータを見る前に草稿が出されたプロトコルだから、自分にとって一番都合の良い分析をこねくりだせるわけがない。残念なことに、多くの研究ではプロトコルを逸脱して、異なった分析をし、研究者のバイアスが入り込みうるようになってしまっている^[9] 。他の多くの科学の分野では、プロトコル公表が要件として課されることは全くない。

統計の手法が増えることは、様々な道具立てをもたらしてくれる。しかし、統計の手法は鈍器のように用いられているようにも見える。データが白状するまで、データを単にたたいている人がいるに違いないのだ。

この文章の続きは「誰もが間違える」を参照のこと。

脚注

訳注：SPSSは統計解析を行うソフトの1つであり、今はIBMが販売している。 [↩]
訳注：Rは、統計解析向けのプログラミング言語の1つである。 [↩]
訳注：ここでの「統制」(control) とは、調査する対象に偏りがないように調節することを指す。例えば、薬の効果を調べる際に、男女を問わずに使える薬であると仮定しているならば、被験者が男ばかりになってしまうのは、統制が取れていないということになる。ちゃんと統制する方法として、例えば、男女を半々にして性別の偏りを防ぐことが考えられる。 [↩]
訳注：病気の症状がほぼ消えることを寛解と呼ぶ。症状が問題ない程度になっているだけで、完全に治癒されたとは言えない状況についても寛解に含まれる。 [↩]
訳注：効果量 (effect size) とは、効果の大きさを表した量のことである。先に見たように、$p$値は効果の大きさを表した量ではない。それにもかかわらず、効果量でなく、$p$値を効果の大きさを表すのに使ってしまう統計の誤用はしばしば見られる。統計解析を行う人は、これら2つの概念を混同しないように注意する必要がある。 [↩]
原注：J. P. A. Ioannidis. Why Most Discovered True Associations Are Inflated. Epidemiology, 19:640–648, 2008. [↩]
訳注：一般的に効果量が大きければ大きいほど、有意であるという結果が出やすくなる。よって、効果量が大きくなる方向に持っていくようにすれば、有意な結果を簡単に出すことができる。 [↩]
原注：J. P. Simmons, L. D. Nelson, U. Simonsohn. False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22:1359–1366, 2011. [↩]
原注：A. Chan, A. Hróbjartsson, K. J. Jørgensen, P. C. Gøtzsche, D. G. Altman. Discrepancies in sample size calculations and data analyses reported in randomised trials: comparison of publications with protocols. BMJ, 337:a2299, 2008.
A. Chan, A. Hróbjartsson, M. T. Haahr, P. C. Gøtzsche, D. G. Altman. Empirical Evidence for Selective Reporting of Outcomes in Randomized Trials: Comparison of Protocols to Published Articles. JAMA, 291:2457–2465, 2004. [↩]