【翻訳】ダメな統計学 (4) 擬似反復:データを賢く選べ

概要
この章では、データ数を増やすために行われる「擬似反復」の問題について説明している。

本文

『ダメな統計学』の目次は「ダメな統計学:目次」を参照のこと。この章に先立つ文章は「検定力と検定力の足りない統計」を参照のこと。

多くの研究では、反復をすることによって、より多くのデータを集めようと努力している。追加の患者や標本に対して測定を繰り返すことで、数値についてよりはっきりさせることができ、パッと見ただけでは明らかにはならないような目立たない関係を発見することができる。検定力を高めたり小さな違いを見つけたりする時の追加データの価値についてはすでに見てきた。だが、実際のところ何が反復として扱われるのだろうか。

データを大量に取ることは重要だが、どう集めるかも重要だ。
データを大量に取ることは重要だが、どう集めるかも重要だ。 [1]

医学の例に戻ってみよう。100人の患者グループが2つあり、それぞれに異なった薬を投与したとき、どちらの薬が血圧をより下げるのかを明らかにしたいものとする。各グループに対し、効果が出るように1ヶ月間薬を飲ませ、その後各グループについて10日間毎日血圧を測る。そうすると、患者ごとに10のデータ点があり、グループごとに1,000個のデータ点があることになる。

すばらしい! 1,000個のデータ点というのはとっても多い。片方のグループがもう片方のグループに比べて血圧が低いということがかなり簡単に確かめられる。統計的有意性を計算すれば、とても簡単に有意な結果が得られる。

でも待ってほしい。1人の患者について10回血圧を測れば、10個のよく似た結果が得られると予想される。もし、ある患者が遺伝的に低血圧の傾向にあれば、その遺伝的特徴を10回測っていることになる。100人の測定を繰り返す代わりに、1,000人の別々の患者からデータを集めたとしたら、グループ間の違いは薬に起因するのであって、遺伝的特徴や運によるものではないと、より自信を持って言えただろう。ここで標本サイズが統計的に有意な結果と高い検定力を与えるほど大きいと主張したとしても、この主張は正当なものではないのだ。

この問題は擬似反復 (pseudoreplication) として知られていて、きわめてありふれたものだ [2] 。ある培養物からの細胞を調べたあとに、同じ培養物からより多くの細胞を取り出して調べることによって、生物学者は結果を「反復する」かもしれない。たった2匹のラットから何百ものニューロンを調べたので標本サイズが大きいと誤って主張するなど、神経科学者は同じ動物からの複数のニューロンを調べるかもしれない。

統計学的な言い方に従えば、擬似反復は個々の観察が互いに強く依存している [3] ときに起きる。ある患者の血圧の測定結果はその患者の前日の血圧と強く関連しているし、ある場所の土壌組成の測定結果は5フィート先の場所の測定結果と強く相関しているだろう。統計分析を行う際に、こうした依存を説明する方法はいくつかある。

  1. 独立していないデータ点の平均をとる。例えば、ある個人から測定された血圧の平均をとる。だけれども、これは完璧な方法ではない。もしある患者について他の患者よりたくさん測定を行ったとしても、そのことは平均の数値に反映されない。より多くの測定が行われるほど、より信頼度が高くなる方法が必要だ。
  2. 独立していないデータ点を別個に分析する。1人から1つのデータ点を取り出す形で、各患者の5日目の血圧を分析することができるだろう。しかし、注意する必要がある。なぜならば、こうしたことを毎日行えば、次の章で議論することになる多重比較の問題を引き起こすからだ。
  3. 階層モデル [4] やランダム効果モデル [5] のように、独立していないことを説明する統計的モデルを用いる。

各手法が適する状況は異なるので、データを分析する前に各手法を検討することが重要だ。擬似反復は、被験者に対する追加的な情報をほとんど提供しないのにもかかわらず、有意差を出すことを簡単にする。標本を再び調べることを通じてわざと標本サイズを大きく見せることをしないように研究者は注意しなくてはならない。

この文章の続きは「p値と基準率の誤り」を参照のこと。

脚注
  1. 画像出典:Pixabayよりrealworkhard氏のパブリックドメイン画像を利用。 []
  2. 原注:S. E. Lazic. The problem of pseudoreplication in neuroscientific studies: is it affecting your analysis?. BMC Neuroscience, 11:5, 2010. []
  3. 訳注:「依存している」ということは、すなわち独立していないということを指す。 []
  4. 訳注:階層モデル (hierarchical model) とは、あるものが別のものに含まれているという階層関係を説明に入れて組み立てる統計的モデルである。例えば、関東の家庭と近畿の家庭とで年間の靴の購入数に違いがあるかを調べるとしよう。そして、関東から5都市(東京、横浜、千葉、水戸、宇都宮)、近畿から5都市(大阪、京都、神戸、奈良、大津)を選び、それぞれの都市から10の家庭を選ぶものとしよう。靴の購入数は、関東か近畿かで変わるかもしれないし、都市によって変わるかもしれない。だから、モデルを組み立てるときは、関東地方か近畿地方かということを組み込むほか、どの都市かということも組み込まなくてはならない。しかし、このとき、地方と都市とを独立したものとして考えてはならない。都市が決まればどの地方にあるかを確定できるので、両者は独立していないのである。もし独立しているとしたら、地方と都市は無関係ということになって、関東にある京都や近畿にある千葉というものが設定できるという変な状態になってしまう。だから、「都市が地方に含まれている」という階層関係をモデルに組み込んで統計分析を行わなくてはならない。このように分析することでより適切な分析が可能になるのだ。 []
  5. 訳注:ランダム効果 (random effect) と対になるものとして固定効果 (fixed effect) というものがある。ランダム効果と固定効果がどういうものなのかについての説明は A. Grafen, R. Hails. Modern Statistics for the Life Sciences. Oxford, England: Oxford Univ. Press, 2002. という本の第12章が分かりやすい。ランダム効果なのか固定効果なのかを正しく決めないと、正確な統計分析はできなくなってしまう。本来はランダム効果として扱うべきなのに、固定効果のように扱ってしまって分析がおかしくなることはしばしば存在する (H. H. Clark. The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning and Verbal Behavior, 12:335–359, 1973.)。 []