DeNA に対する第三者委員会の調査報告書での信頼区間の説明

概要
DeNA に対する第三者委員会の調査報告書でなされていた信頼区間に関する説明がすこしあやういように思われたので、それについて簡単にコメントを記す。

調査報告書の背景

2017年3月13日、DeNA がキュレーションメディア事業で著作権侵害などの問題を起こしたことに対し、第三者委員会による調査報告書が出された [1] 。この報告書は以下の場所からダウンロードすることができる。

この調査報告書を読んでみたところ、信頼区間についての説明が少しあやういように思われた。以下、この信頼区間の説明について見ていきたい。

報告書での信頼区間の説明

まず、なぜ信頼区間というものがこの報告書に出てきたのだろうか。

この調査報告書では、DeNA のキュレーションメディアでどれだけの複製権・翻案権侵害がなされたかという問題を解き明かそうとしている。しかし、DeNA の記事は膨大であり、それを逐一確認するのは現実的ではない。調査報告書の30ページの記述によれば、対象となる記事は37万6671個あるそうだ。

調べるべき対象が大量にある場合に役立つのが統計だ。対象を全部調べるのではなく、一部を調べることによって、全体を推測していくのだ。

この調査では、全体から400個の記事を抽出して、これを標本とする。そして、標本の中で複製権・翻案権侵害などが見られるものがいくつあるかを数える。こうすることで、標本での複製権・翻案権侵害の比率から、全体における複製権・翻案権侵害の比率を推測することができる。このときに構成されるのが、信頼区間だ。この調査報告書では、95%信頼区間が算出されている [2]

ところで、調査報告書の32ページでは以下のような説明がなされている。

400サンプルの50%がサイトにおける著作権法違反の可能性がある記事であった場合、真の値は95%の確率で以下の範囲にあると推定できる。

45.1% < P(母集団値) < 54.9%

また、同じページには以下のような説明もある。

今回は、最大でも抽出した標本による著作権違反の可能性があると判断された記事の出現率の±4.9%内に母集団値(全数調査を実施した際に得られる値)がある確率を95%で推定している。

頻度主義的な解釈

頻度主義的な立場からすると、これらの説明はあやういところがある。95%信頼区間は、その区間の中に真の値が含まれる確率が95%であることを示すものではない。厳密に言うと、標本抽出をした上で信頼区間を構成するということを何度も実行した場合、そうやって作られた多数の信頼区間のうち95%が真の値を含むだろうというものだ。

統計的方法のしくみ』という本の118ページにおいては、母平均 μ の95%信頼区間として、区間 (5.69, 6.49) が得られたときの解釈について、頻度主義的な立場から以下のように述べている(下線原文)。

ここで、「母平均 μ が区間 (5.69, 6.49) に95%の確率で含まれている」と考えるのは正しくない。これが誤解である。母平均 μ の値は未知ではあるが定数である。したがって、区間が具体的に (5.69, 6.49) と求まったあとでは、μ はこの区間に含まれているかいないかのどちらかであり、確率を考えることは不適切になる。(中略)信頼率が95%というのは、「データを取って(中略)信頼区間を構成する」という作業を何回も繰り返せば、計算されたうちの95%の信頼区間が母平均 μ を含んでいるという意味である。

永田靖.(1996). 『統計的方法のしくみ』東京:日科技連出版社.

ベイジアン的な解釈

ただし、ベイジアン的に捉えれば、真の値が95%の確率で入っている区間を想定することができる。なお、その場合は、信頼区間 (confidential interval) でなく、信用区間 (credible interval) と呼ぶ。この辺りの話は、津川友介氏が「頻度論 vs. ベイズ統計」という記事で分かりやすく説明しているので、興味がある人は読んでみると良いだろう。

報道における説明

ところで、第三者委員会の調査によると、400件の記事を調べて、複製権・翻案権侵害の可能性があった記事が15個あったそうだ(調査報告書の35ページ参照)。ここから、1.9% – 5.6%の95%信頼区間が求められている。

ところで、毎日新聞はこの報告書を報じた記事で以下のように述べている。

報告書は10サイトの記事約37万件からサンプル調査した結果、著作権法上の複製権や翻案権侵害の可能性がある記事が最大で全体の5.6%あるとみられ、記事の本数にして約2万1000件に及ぶと推計。

毎日新聞.(2017年3月13日).「DeNA 記事2万本著作権侵害か 画像は74万件」 http://mainichi.jp/articles/20170313/k00/00e/040/216000c#csidxc0189f70abdefbdb5fa24675c1aa071

5.6%というのは、信頼区間の上限に過ぎない。なので、「最大で全体の5.6%ある」というのは若干あやういところがある。もちろん、適宜言葉を補えば、それほど大きな問題にはならないかとは思う。ただ、この記事を書いた記者が信頼区間をしっかりと理解していなかった可能性はある。

脚注
  1. 日本経済新聞.(2017年3月13日).「DeNAサイト、画像74万件で著作権侵害の疑い:第三者委が報告書」 http://www.nikkei.com/article/DGXLASDZ13H1C_T10C17A3000000/ []
  2. 報告書の中では、「信頼区間」という言葉は明示的に用いられていないのだが、説明を見るかぎり、信頼区間を算出しようとしているようだ。 []