【翻訳】ダメな統計学 (11) 何をしてきたか

概要

この章では、現在の科学研究で発生している統計分析上の問題の事例を紹介している。

本文

『ダメな統計学』の目次は「ダメな統計学：目次」を参照のこと。この章に先立つ文章は「データを隠すこと」を参照のこと。

私はここまで容赦ない絵を描いてきた。だけれども、公刊された研究の小さな詳細を捉えて、すさまじい量の誤りのリストを作ることは誰にでもできる。これらの問題は重要なのだろうか？

うん、そうだ。そうじゃなかったらこの文章を書いていない。

ジョン・ヨアニディスの有名な論文「なぜほとんどの公刊された研究上の発見は間違っているのか」^[2] は、研究結果の実証試験よりもむしろ数学上の懸念点に基づいたものである。もし、ほとんどの研究論文が検定力が不足しているのであれば——実際そうなのだが——多くの手法の中から都合の良い結果を得るための手法を選ぶ自由があるのならば——実際そうなのだが——ほとんどの検定された仮説が誤っていてほとんどの真の仮説がとても小さな効果量と対応しているのであれば、多くの偽陽性を得ることが数学的に確定している。

もし実証的な結果を知りたければ、ジョン・ヨアニディスとジョナサン・シェーンフェルドのおかげでそれを知ることができる。彼らは「我々が食べるものは何でもガンと関係するのか」という問題を研究した^[3]^[4] 。料理本からありふれた食材を50種類選んだ後、これらの食材とガン罹患率とを結びつけている研究を探すことに着手した。すると、40種類の食材で216の研究を発見した。もちろん、研究のほとんどが互いに一致していなかった。ほとんどの食品について、ガンになるリスクを増加させると主張する研究と減少させると主張する研究の両方があった。ほとんどの統計的な証拠は弱いもので、メタ分析からは大概元の研究よりずっと小さな効果しかないことが示された。

もちろん、追跡研究やメタ分析で矛盾が起きていることは、論文が正しいものかのように引用されることを妨げない。明白な結果がある大量の追跡試験と矛盾している効果についても、5年あるいは10年後にしばしば引用され、科学者がその結果が誤っていると気づいていないことがある^[5] 。もちろん、新しい発見というものは広くマスメディアに報道されるものであるのに対し、矛盾や修正というのはほとんど言及されない^[6] 。科学者が知らなかったとしてもその科学者を非難しがたいのだ。

単なる偏った結果を忘れないようにしよう。医学誌における低劣な報告基準は、統合失調症の新しい治療法を試す研究で、症状を評価するのに使った尺度について報告することをしないで済ませうることを意味する。偏りはここから手軽に生まれる。公刊されていない尺度を用いた試験は、かつて有効だと検証された試験を用いるよりも良い結果を生み出しがちであるからだ^[7] 。他の医学研究では特定の結果が不都合だったりつまらなかったりしたら、単純にそれを除外している。このことにより、その後のメタ分析では前向きな結果しか含まれなくなるという偏りが生じてしまう。メタ分析の3分の1がこの問題によって悪影響を受けていると推定されている^[8] 。

医学の至適（してき）基準^[9] を考慮して、メタ分析とその後の大規模なランダム化比較試験とを比較した他の調査によると、3分の1以上の事例でランダム化された試験の結果はメタ分析の結果とうまく合わなかった^[10] 。他のメタ分析とその後の研究の比較では、ほとんどの結果が誇張されていることと、おそらく5分の1が偽陽性であることが示されている^[11] 。

信頼区間を誤って使っている多数の自然科学の論文のことを忘れないようにしよう^[12] 。あるいは探索的研究で統制されていない多重比較をもとに念力の証拠を挙げていることになっている査読された心理学の論文を忘れないようにしよう^[13] 。当然のことながら、結果を再現することに失敗する。検定において検定力を計算していないと思われる科学者によって^[14] 。

我々は問題を抱えている。改善に取り組もう。

この文章の続きは「何ができるだろうか」を参照のこと。

脚注

画像出典：Pixabayよりgeralt氏のパブリックドメイン画像を使用。 [↩]
原注：J. P. A. Ioannidis. Why Most Published Research Findings Are False. PLoS Medicine, 2:e124, 2005. [↩]
原注：現在継続中の腫瘍学オントロジープロジェクト (Oncological Ontology Project) の重要な部分は、全てのものをガンを治すものとガンを起こすものの2種類に分けるものである。 [↩]
原注：J. D. Schoenfeld, J. P. A. Ioannidis. Is everything we eat associated with cancer? A systematic cookbook review. American Journal of Clinical Nutrition, 97:127–134, 2013. [↩]
原注：A. Tatsioni, N. G. Bonitsis, J. P. A. Ioannidis. Persistence of Contradicted Claims in the Literature. JAMA, 298:2517–2526, 2007. [↩]
原注：F. Gonon, J.P. Konsman, D. Cohen, T. Boraud. Why Most Biomedical Findings Echoed by Newspapers Turn Out to be False: The Case of Attention Deficit Hyperactivity Disorder. PLoS ONE, 7:e44275, 2012. [↩]
原注：M. Marshall, A. Lockwood, C. Bradley, C. Adams, C. Joy, M. Fenton. Unpublished rating scales: a major source of bias in randomised controlled trials of treatments for schizophrenia. The British Journal of Psychiatry, 176:249–252, 2000. [↩]
原注：J. J. Kirkham, K. M. Dwan, D. G. Altman, C. Gamble, S. Dodd, R. Smyth, P. R. Williamson. The impact of outcome reporting bias in randomised controlled trials on a cohort of systematic reviews. BMJ, 340:c365, 2010. [↩]
訳注：医学において、至適基準 (gold standard) とは、診断をする時に、最も正確に診断ができる検査方法のことを指す。 [↩]
原注：J. LeLorier, G. Gregoire, A. Benhaddad. Discrepancies between meta-analyses and subsequent large randomized, controlled trials. New England Journal of Medicine, 1997. [↩]
原注：T. V. Pereira, J. P. A. Ioannidis. Statistically significant meta-analyses of clinical trials have modest credibility and inflated effects. Journal of Clinical Epidemiology, 64:1060–1069, 2011. [↩]
原注：J. R. Lanzante. A cautionary note on the use of error bars. Journal of climate, 18:3699–3703, 2005. [↩]
原注：E. Wagenmakers, R. Wetzels. Why psychologists must change the way they analyze their data: The case of psi. Journal of Personality and Social Psychology, 2011. [↩]
原注：J. Galak, R. A. LeBoeuf, L. D. Nelson, J. P. Simmons. Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103:933–948, 2012. [↩]