【翻訳】ダメな統計学 (10) データを隠すこと

概要
この章では、科学者がデータを共有したがらないために発生する問題点について述べている。

本文

『ダメな統計学』の目次は「ダメな統計学:目次」を参照のこと。この章に先立つ文章は「誰もが間違える」を参照のこと。

十分な数の目玉があれば、全てのバグは大したものではない。

エリック・スティーブン・レイモンド [1]

科学者が犯しがちな誤りについて述べてきた。そして、外部からの少々の監視の目がこうした誤りを発見するためにどれほど最高の手段かについて述べてきた。査読はこうした監視の目を多少はもたらす。しかし、査読者にはデータを広範囲にわたって再分析したり、コードの誤字を見る時間はない。査読者は方法論が筋が通っているかどうかだけをチェックする。時には明らかな誤りを発見することもあるが、微妙な問題については通常見逃される [2]

多くの学術誌や専門の学会が研究者にデータを他の科学者に対して提供できるように求めているのはこのためだ。完全なデータセットは通例学術誌のページに印刷するには大きすぎる。だから、著者は結果を報告した上で、もしコピーを求められれば完全なデータを他の科学者に送る。もしかしたら他の科学者が誤りや元の研究をした科学者が見落としたパターンに気づくかもしれない。

理論上はそれでうまくいくのかもしれない。2005年、アムステルダム大学のイェルテ・ヴィヒェルツは同僚とともに、アメリカ心理学会 [3] のいくつかの重要な学術誌に出ている最近の記事の全てを分析しようと決めた。それらの記事で使われている統計手法を知るためである。アメリカ心理学会は、論文の著者に対して、著者の主張を検証しようとする他の心理学者にデータを共有することを求めている。これが同学会を選んだ理由の一つである。

ヴィヒェルツたちがデータを求めた249個の研究のうち、6ヶ月以内にデータを受け取れたのは、64個だけだった。全体の4分の3近くの研究で、著者がデータを全く送ってこなかったのである [4]

もちろん科学者は忙しい人種だから、データセットをまとめて、各々の変数が何を意味していてどう測られたかといったことを記述した文書を作る時間がなかっただけなのかもしれない。

ヴィヒェルツとその同僚は、これを調べることを決意した。首尾一貫しない統計の結果や様々な統計的検定の誤用、一般的な誤字といった論文を読むことで見つけることができるありふれた誤りを探すために、全ての研究を調査した。少なくとも半分の論文で誤りが1つはあった。たいていは小さな誤りであったが、15%は誤りのせいで統計的に有意になっているだけの「有意」な結果を少なくとも1つは報告していた。

次に、こうした誤りとデータを共有したがらないこととの関係について探索したところ、両者の間に明らかな関係があった。データを共有することを拒絶した著者は、論文の中で誤りを犯しがちで、統計的な証拠が弱くなりがちな傾向があった [5] 。ほとんどの著者がデータを共有することを拒否したから、ヴィヒェルツは統計的な誤りを深く掘り下げることができなかったが、より多くの誤りが潜んでいるかもしれない。

決してこれは作者が誤りを発見されるのを恐れてデータを隠していたり、誤りについて知っていたということの確実な証拠ではない。相関関係は因果関係を含意しない。しかし、相関関係は、示唆的に眉を揺らして、こっそりジェスチャーをしつつ、声を出さずに口だけを動かして「あそこを見ろ」と言うのだ。 [6]

詳細は省略しておけ

あらさがしをする統計学者が論文の欠陥を指摘してげんなりさせるって? 分かりやすい解決方法が1つある。あまり詳細を公表しないことだ! データをどう評価したかを言わなければ、統計学者は誤りを見つけることができないのだ。

何かが隠されている?
何かが隠されている? [7]

悪意ある科学者がこうしたことを意図的に行っていると本気で言うつもりはない。もしかしたら、そういう科学者もいるかもしれないが。より頻繁に起こるのは、単に著者が詳細を含めることを忘れてしまったせいで、詳細が載らないことだ。あるいは、学術誌のスペースが限られているために、割愛せざるを得なかったということだ。

載せなかったのが何かを見るべく研究を評価することは可能である。医学に関する試験を主導する科学者は、試験を始める前に倫理審査委員会 [8] に詳細な研究計画を提示することが求められる。そして、ある研究者グループはこうした計画を集めたものを委員会から手に入れた。計画においては、研究でどの結果を測定するのかということが具体的に述べられている。例えば、ある研究では、治療によって何か影響を受けた症状があるかを見るために、様々な症状をチェックするかもしれない。そして、くだんの研究者グループはこれらの研究の出版された結果を見つけて、これらの成果がどれだけしっかりと報告されているかを調べた。

成果のおよそ半数が、学術誌に載った論文に全く出ていなかった。これらのほとんどは、統計的に有意でない成果で、ゴミをほうきで掃いてじゅうたんの下に入れたか [9] [10] のように、隠されていたものである。また、結果のその他のかなりの部分は、さらなるメタ分析 [11] を行うために結果を使おうとする科学者にとって十分な詳細が報告されていなかった [12]

他にも同様な問題が報告されている。医学に関する試験についてのある報告では、ほとんどの研究が停止規則や検定力の計算といった重要な方法論に関する詳細を省略していることが示されている。大きな一般的な医学誌に比べて、小さな専門的な学術誌に載っている研究の方がまずいことになっている [13]

医学誌は、CONSORTチェックリスト [14] のような結果報告の基準を設けることで、この問題に対抗しはじめている。論文の著者には、研究内容を投稿する前にチェックリストの要求に従うことが求められている。そして、編集者には、関連する詳細の記述が全て含まれているかを確かめることが求められている。チェックリストはうまくいっているようだ。ガイドラインに従う学術誌で公刊された研究は、全ての本質的な詳細でないにせよ、より本質的な詳細を報告する傾向がある [15] 。それにもかかわらず、残念なことに、基準が一貫性なく適用され、しばしば詳細の記述が欠けた研究がすりぬけてしまう [16] 。学術誌の編集者は、報告基準を遵守させるために、より一層の努力をする必要があるだろう。

公刊された論文があまりうまくいっていないことを見てきた。公刊されていない研究についてはどうだろうか。

書類棚の中の科学

先に、研究結果に対する多重比較と真実の誇張の影響を見てきた。研究において、検定力の低い状態でたくさんの比較をする場合、こうした問題が発生する。そして、高い偽陽性率と誇張された効果量の推定がもたらされることになる。こうした問題は公刊された研究の至るところに見られる。

だが、全部の研究が公刊されるわけではない。例えば、医学では、「この薬を試したが、効かなかったようだ」ということをわざわざ公刊しようとする科学者はほとんどいない [17] から、医学研究のごく一部しか目にすることがない。

多くの研究が公刊されないまま、しまいこまれている。
多くの研究が公刊されないまま、しまいこまれている。 [18]

腫瘍抑制タンパク質のTP53とその頭頸部ガンへの影響についての研究という事例を考えてみよう。TP53を測定してガン死亡率を予測できるだろうということが多くの研究で示唆されている。なぜならば、TP53は、細胞の成長と発達を調整するはたらきを持つがゆえに、ガンを防ぐために正確に機能するにちがいないからだ。TP53とガンに関する公刊された18の研究全てをまとめて分析した場合 [19] 、統計的にかなり有意な相関が得られる。腫瘍が人を死に至らせる可能性を判断するために、TP53を測定することができよう。

しかし、TP53に関する公刊されていない結果——他の研究で言及されてはいるが、公刊あるいは分析されていないデータ——を発掘してみたとしよう。こうしたデータを混ぜ合わせると、統計的に有意な効果は消えてしまう [20] 。結局のところ、相関がないことを示すデータをわざわざ公刊しようとする著者がほとんどいないために、メタ分析においては偏った標本しか使えなかったのである。

似たような研究が、ファイザー [21] の売っているレボキセチンという抗うつ剤について調べている。いくつかの公刊された研究において、偽薬に比べてレボキセチンは効果があることが示唆されている。これによって、いくつかのヨーロッパの国では、うつ病の患者に処方することを承認している [22] 。治療の評価に責任を負っているドイツの医療品質・効率性研究機構 [23] は、ファイザーから公刊されていない試験データを何とか手に入れた。公刊されていないデータは公刊されていたものの3倍以上に及んでいた。そして、医療品質・効率性研究機構がそのデータを注意深く分析したところ、レボキセチンは効果がないことが分かった。ファイザーは効果がないと示す研究について言及しないことで、薬に効果があると大衆に説得していただけなのである [24]

この問題は公刊バイアス (publication bias) またはファイル引き出し問題 (file-drawer problem) として一般に知られている。多くの研究が、ファイルを入れる引き出しに何年も収められたままで、貢献できるかもしれない価値あるデータにもかかわらず、決して公刊されないのである。

この問題は、単に公刊された結果の偏りだけをもたらすものではない。研究が公刊されないことは、苦労を繰り返すことにつながる。もし、すでに行われた研究について知らなければ、他の科学者がもう一度その研究を行うかもしれない。そうなれば、金銭と労力の無駄である。

規制を行う側と学術誌は、この問題を止めようと試みている。アメリカの食品医薬品局 [25] は、ある種の臨床試験に対して、試験を始める前に、食品医薬品局が運営しているウェブサイト ClinicalTrials.gov で登録することを求めており、さらに、試験が終わってから1年以内に結果を公刊することも求めている。同様に、医学誌編集者国際委員会は、2005年に、事前に登録されていない研究については公刊しないことを表明している。

不幸なことに、738件の登録された臨床試験に関する報告によれば、22%しか公刊するという法的要件を満たしていなかった [26] 。食品医薬品局は法令遵守違反で製薬会社に罰金をとることをしていない。また、学術誌は、試験登録の要求を常に強制しているわけではない。ほとんどの研究は単に消えているだけである。

この文章の続きは「何をしてきたか」を参照のこと。

脚注
  1. 訳注:エリック・スティーブン・レイモンド (Eric Steven Raymond) はアメリカの有名なプログラマである。『ハッカーズ大辞典』の編者としても知られている。レイモンドは、「十分な数の目玉があれば、全てのバグは大したものではない。」(“Given enough eyeballs, all bugs are shallow.”) という言葉によって、ソフトウェア開発において多数の人の目にさらされればソフトウェアの不具合は修正されるということを簡潔に言い表している。レイモンドの言葉はソフトウェア開発に関する話であるが、この考え方は科学研究にも応用できるというのがこの章の主眼である。 []
  2. 原注:S. Schroter, N. Black, S. Evans, F. Godlee, L. Osorio, R. Smith. What errors do peer reviewers detect, and does training improve their ability to detect them?. JRSM, 101:507–514, 2008. []
  3. 訳注:アメリカ心理学会 (American Psychological Association; APA) は、その名の通り、アメリカの心理学者が集まってできた学会である。その規模は非常に巨大であり、13万の会員を擁する。同学会は最も代表的なAmerican Psychologistのほか、感情研究を扱うEmotionや教育心理学を扱うJournal of Educational Psychologyなど、心理学の様々な分野について学術誌を出している。 []
  4. 原注:J. M. Wicherts, D. Borsboom, J. Kats, D. Molenaar. The poor availability of psychological research data for reanalysis. American Psychologist, 61:726–728, 2006. []
  5. 原注:J. M. Wicherts, M. Bakker, D. Molenaar. Willingness to Share Research Data Is Related to the Strength of the Evidence and the Quality of Reporting of Statistical Results. PLoS ONE, 6:e26828, 2011. []
  6. 原注:これは、恥知らずにもhttp://xkcd.com/552/の代替テキストから盗用したジョークである。 []
  7. 画像出典:PixabayよりPublicDomainPictures氏のパブリックドメイン画像を使用。 []
  8. 訳注:医学に関する試験を実施する大学や病院などでは、倫理審査委員会 (ethical review board) が設置される。倫理審査委員会は、試験を行う人から独立して、試験が倫理的に問題ないかについて判断することが求められる。医学に関する試験を行う際には、試験中の薬による副作用など、被験者に悪影響が及ぶ可能性がある。こうした問題を防ぐために、試験を始める前に倫理審査委員会の審査と承認を経ることが必要とされる。 []
  9. 原注:なぜ我々はいつも「ほうきで掃いてじゅうたんの下に入れる」と言うのだろうか。それは誰のじゅうたんなのだろうか。そして、なぜほうきのかわりに掃除機を使わないのだろうか []
  10. 訳注:英語では「(悪い物事を)隠す」という意味で、“sweep under the rug”(じゅうたんの下へほうきで掃く)と言うことがある。 []
  11. 訳注:メタ分析 (meta-analysis) とは、すでに実施された研究の結果を統合して分析することを指す。 []
  12. 原注:A. Chan, A. Hróbjartsson, M. T. Haahr, P. C. Gøtzsche, D. G. Altman. Empirical Evidence for Selective Reporting of Outcomes in Randomized Trials: Comparison of Protocols to Published Articles. JAMA, 291:2457–2465, 2004. []
  13. 原注:K. Huwiler-Müntener, P. Jüni, C. Junker, M. Egger. Quality of Reporting of Randomized Trials as a Measure of Methodologic Quality. JAMA, 287:2801–2804, 2002. []
  14. 訳注:CONSORTはConsolidated Standards of Reporting Trials(試験の報告の統合された標準)の略で、ランダム化比較試験である臨床試験において、どのようなことを報告しなくてはならないかについてまとめている。CONSORT 2010声明には日本語版も存在する。は以下のURLに掲載されている。 []
  15. 原注:A. C. Plint, D. Moher, A. Morrison, K. Schulz, D. G. Altman, C. Hill, I. Gaboury. Does the CONSORT checklist improve the quality of reports of randomised controlled trials? A systematic review. Medical journal of Australia, 185:263–267, 2006. []
  16. 原注:E. Mills, P. Wu, J. Gagnier, D. Heels-Ansdell, V. M. Montori. An analysis of general medical and specialist journals that endorse CONSORT found that reporting was not enforced consistently. Journal of Clinical Epidemiology, 58:662–667, 2005. []
  17. 訳注:ここでは、効かなかったものをわざわざ公刊しようとする科学者はほとんどいないと書いてあるが、科学者があえて公刊しようと思った場合はどうなるだろうか。実のところ、科学者が公刊しようと思っても、効かなかったものについての公刊を承諾する学術誌はほとんどないと考えられる。なぜかと言うと、学術誌に論文を載せる場合、その論文には、新しく分かったことで、意味があることを載せる必要がある。しかし、効かなかったという知見は、全く無意味というわけではないが、新しくて意味があることとするにはパンチが足りず、結果として公刊されないのである。 []
  18. 画像出典:Pixabayよりiglobal3d氏のパブリックドメイン画像を使用。 []
  19. 訳注:ここでは18の研究を合わせたメタ分析を実施していることになる。 []
  20. 原注:P. A. Kyzas, K. T. Loizou, J. P. A. Ioannidis. Selective Reporting Biases in Cancer Prognostic Factor Studies. Journal of the National Cancer Institute, 97:1043–1055, 2005. []
  21. 訳注:ファイザー (Pfizer) は、1849年に設立されたアメリカの大手製薬会社である。 []
  22. 訳注:日本やアメリカではレボキセチンが承認されていない。 []
  23. 訳注:ドイツの医療品質・効率性研究機構 (Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen; IQWiG) は、2004年にドイツの医療制度改革によって設立された独立機関で、薬品などの品質や効率性について研究を実施している。 []
  24. 原注:D. Eyding, M. Lelgemann, U. Grouven, M. Härter, M. Kromp, T. Kaiser, M. F. Kerekes, M. Gerken, B. Wieseler. Reboxetine for acute treatment of major depression: systematic review and meta-analysis of published and unpublished placebo and selective serotonin reuptake inhibitor controlled trials. BMJ, 341:2010. []
  25. 訳注:アメリカの食品医薬品局 (The Food and Drug Administration; FDA) は保険社会福祉省の部門の1つであり、食品や医薬品の安全検査、認可などを所管している。 []
  26. 原注:A. P. Prayle, M. N. Hurley, A. R. Smyth. Compliance with mandatory reporting of clinical trial results on ClinicalTrials.gov: cross sectional study. BMJ, 344:d7373, 2011. []