調査報告書の背景
2017年3月13日、DeNA がキュレーションメディア事業で著作権侵害などの問題を起こしたことに対し、第三者委員会による調査報告書が出された [1] 。この報告書は以下の場所からダウンロードすることができる。
- 株式会社ディー・エヌ・エー 第三者委員会調査報告書の全文開示公表のお知らせ(容量が大きいPDFなので注意)
この調査報告書を読んでみたところ、信頼区間についての説明が少しあやういように思われた。以下、この信頼区間の説明について見ていきたい。
報告書での信頼区間の説明
まず、なぜ信頼区間というものがこの報告書に出てきたのだろうか。
この調査報告書では、DeNA のキュレーションメディアでどれだけの複製権・翻案権侵害がなされたかという問題を解き明かそうとしている。しかし、DeNA の記事は膨大であり、それを逐一確認するのは現実的ではない。調査報告書の30ページの記述によれば、対象となる記事は37万6671個あるそうだ。
調べるべき対象が大量にある場合に役立つのが統計だ。対象を全部調べるのではなく、一部を調べることによって、全体を推測していくのだ。
この調査では、全体から400個の記事を抽出して、これを標本とする。そして、標本の中で複製権・翻案権侵害などが見られるものがいくつあるかを数える。こうすることで、標本での複製権・翻案権侵害の比率から、全体における複製権・翻案権侵害の比率を推測することができる。このときに構成されるのが、信頼区間だ。この調査報告書では、95%信頼区間が算出されている [2] 。
ところで、調査報告書の32ページでは以下のような説明がなされている。
また、同じページには以下のような説明もある。
頻度主義的な解釈
頻度主義的な立場からすると、これらの説明はあやういところがある。95%信頼区間は、その区間の中に真の値が含まれる確率が95%であることを示すものではない。厳密に言うと、標本抽出をした上で信頼区間を構成するということを何度も実行した場合、そうやって作られた多数の信頼区間のうち95%が真の値を含むだろうというものだ。
『統計的方法のしくみ』という本の118ページにおいては、母平均 μ の95%信頼区間として、区間 (5.69, 6.49) が得られたときの解釈について、頻度主義的な立場から以下のように述べている(下線原文)。
ベイジアン的な解釈
ただし、ベイジアン的に捉えれば、真の値が95%の確率で入っている区間を想定することができる。なお、その場合は、信頼区間 (confidential interval) でなく、信用区間 (credible interval) と呼ぶ。この辺りの話は、津川友介氏が「頻度論 vs. ベイズ統計」という記事で分かりやすく説明しているので、興味がある人は読んでみると良いだろう。
報道における説明
ところで、第三者委員会の調査によると、400件の記事を調べて、複製権・翻案権侵害の可能性があった記事が15個あったそうだ(調査報告書の35ページ参照)。ここから、1.9% – 5.6%の95%信頼区間が求められている。
ところで、毎日新聞はこの報告書を報じた記事で以下のように述べている。
5.6%というのは、信頼区間の上限に過ぎない。なので、「最大で全体の5.6%ある」というのは若干あやういところがある。もちろん、適宜言葉を補えば、それほど大きな問題にはならないかとは思う。ただ、この記事を書いた記者が信頼区間をしっかりと理解していなかった可能性はある。
- 日本経済新聞.(2017年3月13日).「DeNAサイト、画像74万件で著作権侵害の疑い:第三者委が報告書」 http://www.nikkei.com/article/DGXLASDZ13H1C_T10C17A3000000/ [↩]
- 報告書の中では、「信頼区間」という言葉は明示的に用いられていないのだが、説明を見るかぎり、信頼区間を算出しようとしているようだ。 [↩]