とりあえずビール、とりあえず分散分析

概要
調べたい内容に適した分析手法について深く考えず、「とりあえず分散分析」のように分析手法をあらかじめしぼりこむことはよろしくない。もっと適した分析手法がある可能性があるためである。

とりあえずビール

日本の宴会で飲み物を選ぶときに一番よく使われるセリフは「とりあえずビール」でないだろうか。なるほど宴会を始めるに当たって何を飲むのかいちいち考えていると手間だから、とりあえずビールを選んでおくというのは1つの見識であろう。

とりあえずビール? それで良いの?
とりあえずビール? いつもそれで良いの? [1]

そうは言っても、いつも「とりあえずビール」と言えばよいものではないだろう。例えば、そもそも酒が飲めない人がいる。あるいはビールよりももっと料理に合う飲み物があるかもしれない。

ビールは常に最善手というわけではないのだ。状況によって飲み物を選ぶというのもまた1つの見識であろう。それを無視して、「とりあえずビール」と言うだけではいかにももったいないことである。もっと適切な飲み物が選べるかもしれないのだ。

そして、「とりあえずビール」と言うとき、ビールの銘柄は往々にして無視される。ビールの銘柄ごとの違いを考えず、ビールなら何でもよいとされてしまっているわけだ [2] 。しかし、「ビールなら何でも一緒でしょ」というわけではない。ビールの銘柄ごとに特徴というものがあるのだから、しっかりとビールを味わいたければ、その特徴に違いがあるということを把握した方がよいだろう。

とりあえず分散分析

なぜ突然「とりあえずビール」について語りはじめたのかと言えば、統計分析をしようとしている人たちが似たようなセリフを言うからだ。分野によって違うだろうが、「とりあえず分散分析」、「とりあえずt検定」といったセリフがよく観察されると思う。

どんな場合でもとりあえずビールを飲もうとするのと同様に、どんなデータに対してもとりあえず分散分析をしようとする人たちがいるのだ。たとえビールが合わない料理でもビールを飲もうとするのと同様に、t検定が合わないようなデータに対してもt検定をしようとする人たちがいるのである。

合わない状況でもとりあえず使ってしまう

t検定というものは、基本的には、2つのグループの平均が同じかどうかを調べるための手法だ [3] 。3つ以上のグループの平均が同じかどうかを調べたければ、別の手法を使う必要がある。しかし、「とりあえずt検定」と言う人は、グループが3つであろうと4つであろうとt検定を使ってしまう。

実は、私が見た例の中にはもっとひどい例がある。2つのグループの分散が同じかどうかを調べるためにt検定を使おうとしていたのだ。平均が同じかどうかではなくて、分散が同じかどうかを調べようとしているのだ。なぜそうしたのかと聞いてみたら、「ああ、なんか分散分析と混同していた」と答える始末。なお、分散分析は「分散」という文言は含まれているものの、2つのグループの分散が同じかどうかを調べるために使うものではない。だから、「分散分析と混同していた」というのは二重に間違っていることになる。

分散分析は、わりと応用範囲が広い手法である。だから、「とりあえず分散分析」という戦略をとれば、手法がたまたま妥当になる可能性は決して低くない。しかし、それでも分散分析が合わない状況というのは山ほどあるから、バカの一つ覚えのようにひたすら分散分析を使っていては困るのである。

やり方によって特徴は違う

それに、分散分析と一口に言っても、色々なやり方がある。ビールにさまざまな銘柄があって、銘柄によって特徴が違うのと同様に、分散分析もやり方によって特徴が異なる。例えば、どんなタイプの平方和を使うのか、交互作用を考えるかどうかといったことを選択する必要がある。そのことを知らずに、「分散分析なら何でも一緒でしょ」と言わんばかりに、いつもの統計ソフトのボタンを押すだけではうまく分析できないのである。

これはビールの銘柄の違いを無視して、ビールなら何でも一緒だと考えることと似ている。ビールと一言に言っても色々あるのと同様に、分散分析にも色々なものがある。どれが適切か考えていく必要がある。

原因の考察

なぜ「とりあえず分散分析」になってしまうのだろうか。統計を使おうとする人が統計を良く知らないからのかもしれない。統計手法として知っているのが分散分析しかないので、それをとりあえず使えばよいと考えてしまうのだろう。

あるいは、かつてその手法を使ってうまくいったから、今度も2匹目のどじょうということで、もう1回同じ手法を使おうと考えているのかもしれない。これは自分がかつてうまくいったとからいうだけでなく、他の人がかつてうまくいったからそうしようと考えたのかもしれない。師匠がそうやっていたから、先輩がそうやっていたらから、周りがそうやっていたから、自分も同じようにすれば安心だというわけだ。

ここには、宴会では「とりあえずビール」と言っておけばよい、そして1人だけ違うものを頼んで目立ちたくないといった感情と類するところがあるのかもしれない。周りに合わせれば安心で、たとえ問題があったとしてもそこから逸脱しないことが望ましいという話なのかもしれない。こういった場所では往々にして「内輪の秘儀」が物事をゆがめていく。

本来あるべき姿

しかしながら、本来であれば分析したい対象に応じて適切な手法を考えるべきであろう。自分の調べたい内容に応じて、複数の手法を比較考量し、その中で適したものを選んでいくことが重要だ。それは、料理に合う飲み物を比較考量していくことと同じようなものだ。

分散分析より良い方法があるかもしれないのである。にもかかわらず、「とりあえず分散分析」に固執すれば妥当な分析はできないだろう。もし「とりあえず分散分析」と言う人にからまれたら、(1) 統計をしっかりと学習してもらうか、(2) 統計分析の専門家に相談してもらうようにするとよいだろう。どっちにも従ってくれない? ご愁傷様です。

とりあえず機械学習など

最近は「とりあえず機械学習」といった感じのセリフも世にあふれているらしい。「とりあえずAI」や「とりあえずディープラーニング」という類似のセリフもある。

これも今まで話してきた話と同じで、変な話である。取り組もうとしている課題に合わないものを使っても仕方がない。また、機械学習と言ってもさまざまな手法がある。どれを選ぶかはそんなに簡単な話ではない。

料理に合う飲み物は場合によりけりであるのに、「とりあえずビール」と銘柄すら指定せずに飲み物を選ぶのは、いかにももったいないことである。「とりあえず機械学習」と言ってしまう人も、そんな感じである。問題解決に役立つ手法は状況によって変わるのにもかかわらず、だ。

脚注
  1. PixabayよりAlexas_Fotos氏によるパブリックドメイン画像を使用。 []
  2. 1種類のビールしか提供されていない店で、選択肢がないということもありうるだろうが。 []
  3. 厳密に言うと、もっと色々条件が付くのだが、ここでは触れないでおく。 []