データのクリーニングや組織化について深めたい人のために――『データリテラシー』

概要

『データリテラシー』という書籍は、データ分析の経験がある程度ある人が、データのクリーニングや組織化について見直す際に有用である。

はじめに

この記事では、『データリテラシー』という本を紹介したいと思う。タイトルからは何の本なのか分かりにくいかもしれないが、データのクリーニング (data cleaning) やデータの組織化 (data organization) について見識を深めたい人にとって有用な1冊である。

柴田里程．(2001). 『データリテラシー』東京：共立出版．
- 版元ウェブサイトでの『データリテラシー』の紹介ページ
- 増田耕一氏による『データリテラシー』の読書ノート^[1]

どういう人に向いているか

この本は、データ分析の経験があまりない人にとっては難しいかもしれない。ただ、データ分析をよくやっている人にとっては、日頃の経験を整理・体系化するのに有用であると思う。要するに、これは素人（しろうと）向けではない。玄人（くろうと）が自分のやっていることを見直すときに役に立つ本だ。

この本では「データの浄化」という言い方が用いられているが、これは「データクリーニング」と同じことである。一般には「データクリーニング」の方がよく使われていると思うので、この紹介記事では「データクリーニング」という言葉で説明していく。

全体の構成

この本は、おおむね以下の内容を扱っている。第3章の内容については別途詳しく説明する。

第1章・第2章：データサイエンスにおいて扱うデータの種別、およびその記述方法
第3章：データクリーニングとデータの組織化
第4章：探索的データ分析の初歩^[2]
- データをさまざまな側面から全面的に観察し、何らかの均質性・変化を発見する手法の説明。
第5章：データの流通・蓄積

DandD

なお、この本では、DandD (Data and Description) というルールによってデータを記述することが行われている。私の知るかぎり、DandD のルールはほとんど使われていない。このため、このルールを詳しく覚える必要はないと思う。

しかし、このルールの根本的理念（データとその記述を一体化すること）はデータ分析にとって益するところがある。また、このルールの細目として挙げられているものは、データクリーニングやデータの組織化を考える際に有用であろう。例えば、この本の39–42ページで触れられているデータの型の区別は、DandD を使わない場合であっても、データ分析をするなら避けられない問題である。このため、DandD について説明している記述であっても、役立つところが大いにあると思う。

データクリーニング

私に言わせると、この本で最も有益な箇所は第3章である。第3章では、データクリーニングとデータの組織化というデータ分析において欠くことのできない話題を扱っている。

第3章第1節では、現実のデータの事例がいくつも挙げられている。その中で、現実に手に入るデータが乱雑であることが多く、データに付された記述に問題が多いことが示される。

第3章第2節では、データクリーニングでどのような作業が行われるのかということが論じられている。人為的ミスの修正、冗長な変数の削除^[3] 、単位の統一など、さまざまなことが挙げられている。

さらに、第3章第3節ではデータの組織化が扱われ、第4節では背景情報をどう記述するかが扱われる。

現実世界に、クリーニングせずに分析できるデータはほとんどない。データ分析をしようとする際にはデータクリーニングが不可欠となる。そういった不可欠な話題を真正面から扱っているこの章は貴重であると思う。

おわりに

データ分析の教科書は、往々にして統計手法の説明に終始していることが多い。しかし、データ分析をするときには、ロジスティック回帰やクラスタリングといった統計手法を知ることも大事であるが、そもそもデータにどのような性質があるかを理解し、データをどう構成していくのかを把握することも大事である。

今回紹介した『データリテラシー』という本は、データの性質の理解やデータ構成方法の把握に役立つものになっているという点で、珍しい1冊になっている。

ただし、この本は初心者向けに懇切丁寧に説明しているわけではない。データに関わることを網羅的に述べようとしているため、初心者では理解しきれないと思う。

しかし、データ分析の経験がある程度ある人ならば、ふだんの自分の分析を見直し、自分が見落としていることを発見するために、この本は十分に使えると思う。

補：著者の名前について

この本の著者の下の名前は、「里程（りてい）」という。実は、この名前は「リテラシー」にちなんでつけられたものである^[4] 。著者の父である柴田武は、言語学者で、終戦直後に日本人の識字能力（リテラシー）調査にたずさわっていた。その調査チームに在籍していたときに、息子が生まれたので、「里程」という名を付けたそうだ。柴田武は後に「リテラシイから里程としたわけです」と述懐している^[5] 。リテラシーにちなんで名付けられた人が『データリテラシー』という本を書いたというのは、なかなか素敵だと私は思う。

脚注

2017年7月24日：この読書ノートへのリンク追記 [↩]
この本では、「データブラウジング」と呼んでいる。 [↩]
冗長な変数の削除の例としては、日付と曜日が両方とも生データに含まれている場合、曜日は後で日付から計算することができるので、曜日は削除しておくことが挙げられる。 [↩]
柴田里程．(2001). 『データリテラシー』東京：共立出版． p. vi [↩]
柴田武・野元菊雄・西平重喜． (1981). 『日本における統計学の発展第9巻』 http://hdl.handle.net/10787/3755 [↩]