【翻訳】ダメな統計学 (9) 誰もが間違える

概要

この章では、現在の科学研究において、統計の誤りが多いことについて説明した上で、こうした誤りに対抗するにはデータの共有が重要だと訴えている。

本文

『ダメな統計学』の目次は「ダメな統計学：目次」を参照のこと。この章に先立つ文章は「研究者の自由：好ましい雰囲気？」を参照のこと。

今までの議論では、科学者は計算するための適切な数字を選ぶことを間違えるだけで、統計に関する計算を完全に正しくできるものだと考えてきた。科学者は統計的検定の結果を誤って使ったり、関連する計算に失敗するかもしれないけれども、少なくとも$p$値は計算できる。良いよね？

たぶんそうじゃない。

医学と心理学の実験で報告された統計的に有意な結果に対して調査を実施したところ、多くの$p$値が間違っていることが示された。また、統計的に有意でない結果についてちゃんと計算したところ、本当は有意であるものが存在することが示された^[1] 。他の報告では、誤って分類されたデータ、間違って重複してしまったデータ、おかしなデータセットをまるごと入れること、そしてその他の混乱の事例が示されている。こうした事例は、間違いについて簡単に気づくように十分な詳細を記述しなかった論文では全て隠されている^[2] 。

注目の光を浴びせることが重要だ。Pixabayよりパブリックドメイン画像を使用。

殺菌するものの中では日光が最も良い^[3] 。つまり、みんなに注目されることが問題を解決する良い手段なのだ。そして、多くの科学者は、実験データがインターネットを通じて手に入れられるようにすることを求めている。いくつかの分野では、こうしたことがありふれたことになっている。遺伝子配列データベース、タンパク質構造データバンク、天体観測データベース、地球観察コレクションといった多くの科学者の貢献が含まれているデータが存在している。しかし、他の多くの分野では、データを共有できないでいる。量子力学のデータではテラバイト単位の情報を含むといったように、実用的な理由から共有できないこともある。医学実験のようにプライバシーの問題があるから共有できないこともある。また、資金や技術的サポートがないために共有できないこともあるし、あるいは単にデータとそこから得られる結果の全てを独占的なコントロールのもとに置きたいと思っているためにデータを共有できないこともある。そして、たとえデータが全て手に入ったとしても、誰が誤りを見つけるために分析するだろうか？

同様に、ある種の分野の科学者は、うまくできた技術的ツールを使って統計分析の内容を手に入れられるようにしている。例えば、Sweave というツールでは、科学・数学の出版で標準的となっている LaTeX というもので書かれた論文の中に、行われた統計の結果を人気のあるR言語を使って簡単に埋め込むことができる。結果は普通の科学論文と同じように見えるが、その論文を読んでその手法に興味を持った他の科学者がソースコードをダウンロードすることができる。そのソースコードには全ての数値がどう計算されたかが書いてある。しかし、科学者はこうした機会を利用するだろうか？コードの誤字をチェックしても、誰も科学における栄誉は得られないのだ。

他の解決方法としては繰り返し (replication) があるだろう。科学者が他の科学者の実験を注意深く再現して結果を検証するのなら、誤った結果を引き起こす誤字の可能性を除外するよりずっと楽だ。繰り返しはめったに起きない偽陽性の結果も除外する。多くの科学者は実験の繰り返しは科学の真髄であると考えている。新しい考えは、それが独立に試験され、世界中で再試験が行われ、筋が通っていると分かるまで認められないのだ。

このことは完全に正しいわけではない。科学者はしばしば先行研究を正しいものだと考える。だが時には過去の研究成果について系統的に再試験をしようと決めることがある。例えば、ある新しいプロジェクトは、主要な心理学誌に載った論文の再現をすることを目的としている。そこでは、論文のどれだけが今なお有効なのかをはっきりさせ、論文のどのような特性が再試験に耐えることができるかを予測できるかをはっきりさせようとしている^[4] 。他の事例として、アムジェン^[5] のガンの研究者たちが53のガン研究における画期的な前（ぜん）臨床研究について再試験を行ったことがある。（「前臨床」という言葉は、研究が新しくて未証明の考えについて試験しているために、人間の患者には関わらなかった研究^[6] であるということを意味している。）原論文の著者と協力したにもかかわらず、アムジェンの研究者は、再試験をした研究のうち6つでしか結果を再現することができなかった^[7] 。バイエル^[8] の研究者は、公刊された論文の中で見つかった新しい薬として使える可能性がある薬の試験をした際に、同様の困難を報告している^[9] 。

これはやっかいだ。この傾向はより理論的でない医学研究にも当てはまるだろうか。どうもそうらしい。医学で最も良く引用されている研究記事のうち、4つに1つが記事出版後に再試験が行われていないし、3つに1つが後の研究で誇張されたものか誤っているものであると分かっている^[10] 。これはアムジェンの結果ほど極端ではないが、重要な研究の中にどんな誤りが気づかれないまま潜んでいるのだろうかという疑いを持たせるだろう。繰り返しは我々が期待しているほど広く行われてはいない。そして、結果はいつも歓迎すべきものであるとは限らないのだ。

この文章の続きは「データを隠すこと」を参照のこと。

脚注

原注：P. C. Gøtzsche. Believability of relative risks and odds ratios in abstracts: cross sectional study. BMJ, 333:231–234, 2006.
M. Bakker, J. M. Wicherts. The (mis)reporting of statistical results in psychology journals. Behavior Research Methods, 43:666–678, 2011. [↩]
原注：P. C. Gøtzsche. Methodology and overt and hidden bias in reports of 196 double-blind trials of nonsteroidal antiinflammatory drugs in rheumatoid arthritis. Controlled Clinical Trials, 10:31–56, 1989.
K. A. Baggerly, K. R. Coombes. Deriving chemosensitivity from cell lines: Forensic bioinformatics and reproducible research in high-throughput biology. The Annals of Applied Statistics, 3:1309–1334, 2009. [↩]
訳注：原文は“Sunshine is the best disinfectant”（日光は最も良く殺菌するものである）となっている。これは、アメリカの法律家ルイス・ブランダイスの“Publicity is justly commended as a remedy for social and industrial diseases. Sunlight is said to be the best of disinfectants; electric light the most efficient policeman.”（公（おおやけ）に注目されることは、社会・産業の病（やまい）の治療法として正当に推奨される。日光は殺菌するものの中で最も良いと言われている。電灯は最も効率的な警察官だ。）という名言を引いたものである。 [↩]
原注：再現性プロジェクト (The Reproducibility Project)：http://openscienceframework.org/reproducibility/ [↩]
訳注：アムジェン (Amgen) はアメリカのバイオテクノロジー企業で、医薬品の開発・製造を業務としている。 [↩]
訳注：新しいものをいきなり人間の患者に実施するのは危険である。このため、先に動物実験を実施して安全性を確認するということなどが行われる。 [↩]
原注：C. G. Begley, L. M. Ellis. Drug development: Raise standards for preclinical cancer research. Nature, 483:531–533, 2012. [↩]
訳注：バイエル (Bayer) はドイツの製薬会社である。 [↩]
原注：F. Prinz, T. Schlange, K. Asadullah. Believe it or not: how much can we rely on published data on potential drug targets?. Nature Reviews Drug Discovery, 10:328–329, 2011. [↩]
原注：J. P. A. Ioannidis. Contradicted and initially stronger effects in highly cited clinical research. JAMA, 294:218–228, 2005. [↩]