学習指導要領解説に載った箱ひげ図付きの散布図
2018年3月に日本の高等学校の新しい学習指導要領が公布された。これを受けて、7月に高校の各教科の学習指導要領解説が出された。このうち、『高等学校学習指導要領解説 数学編 理数編』 [1] の48ページに以下のような散布図の脇に箱ひげ図が組み合わされた図が載っていた。
新しい学習指導要領では、数学の必修科目として「数学I」が設定されている [2] 。この科目で扱われる内容として「データの分析」というものがある。そこでは、
- 知識・技能の習得の面で「コンピュータなどの情報機器を用いるなどして,データを表やグラフに整理したり,分散や標準偏差などの基本的な統計量を求めたりすること」とされており、
- 思考力・判断力・表現力の習得の面で「目的に応じて複数の種類のデータを収集し,適切な統計量やグラフ,手法などを選択して分析を行い,データの傾向を把握して事象の特徴を表現すること」とされている。
これら2点に対する解説の中で、量的データ間の関係を探るときに「散布図と箱ひげ図を組み合わせた図」を使うことが挙げられている。そして、その「散布図と箱ひげ図を組み合わせた図」の例が、先に挙げた箱ひげ図付きの散布図である。
元ネタはアヤメのデータセット
ところで、このグラフは何のデータを示したものなのだろうか。学習指導要領解説には、どこからのデータであるか出典が書いていない上、グラフには軸ラベルが付いていない [3] 。
ただ、グラフに示されているデータ点の値などからすると、これはアヤメのデータセット (iris dataset) であると思われる。アヤメのデータセットは、データ分析の練習で比較的よく使われるデータセットなので、見る人が見ればすぐにこのデータだと分かる。
アヤメのデータセットは、エドガー・アンダーソン (Edgar Anderson) という人が作り上げたものである。彼は、3種類のアヤメの花の花びらと萼の長さと幅を測定し、その結果をまとめた。その後、20世紀で最も偉大な統計学者の1人であるR. A. フィッシャー (Ronald Aylmer Fisher) がこのデータセットを題材にしたため、データ分析の世界で有名になった。
このアヤメのデータセットは、英語版 Wikipedia の“Iris flower data set”という項目や UCI Machine Learning Repository のIris Data Set で閲覧することができる。
R言語を用いた再現
R言語という統計処理で良く用いられるプログラミング言語がある。このプログラミング言語で、先ほどの箱ひげ図付きの散布図を再現してみよう。
R言語で箱ひげ図付きの散布図を作りたければ、car
というパッケージの scatterplot()
という函数を使うのが簡単だ [4] 。また、R言語には最初からアヤメのデータセットが含まれており、iris
という名前で簡単に呼び出すことができる。
具体的には以下のようにすることで、学習指導要領解説のグラフを再現することができる。
car::scatterplot(Sepal.Length ~ Petal.Width | Species, data = iris, boxplots= "xy", xlab="", ylab="", grid = FALSE, legend = FALSE, col = "black", regLine = FALSE, smooth = FALSE)
上記のスクリプトの1行目は、car
パッケージの scatterplot()
函数で、Species
(種)ごとに Sepal.Length
(萼の長さ)とPetal.Width
(花びらの幅)の関係を描くということを言っている。2行目ではデータとして iris
(アヤメのデータセット)を使うということを言っており、3行目ではX軸とY軸に沿ってそれぞれの箱ひげ図を描くということを指定している。4行目以降はグラフの見た目を色々と調整している。
このスクリプトの出力結果は以下のようになる。学習指導要領解説のグラフとほぼ同じになっていることが分かるだろう。
このグラフで、横軸はアヤメの花びらの幅、縦軸はアヤメの萼の長さを示している。単位はいずれもセンチメートルである。散布図では、データ点を表すのに「○」、「△」、「+」の3種類の記号が用いられている。記号はアヤメの種に対応しており、「○」、「△」、「+」はそれぞれ setosa, versicolor, virginica という種になる。
- 文部科学省.(2018). 『高等学校学習指導要領解説 数学編 理数編』 http://www.mext.go.jp/component/a_menu/education/micro_detail/__icsFiles/afieldfile/2018/07/17/1407073_05.pdf 2018年7月19日閲覧. [↩]
- 多くの高校では、これを1年生の時に履修することになるだろう。 [↩]
- 事例とは言え、出典や軸ラベルをしっかりと記した方が教育的だと思うが。 [↩]
- CRAN に上がっている2018年4月2日付けの安定版の
car
(Version 3.0-0) では、ここでのスクリプトはうまく動かない。代わりに、開発版のcar
(Version 3.0-1) を使う必要がある。開発版をインストールしたければ、install.packages("car", repos="http://R-Forge.R-project.org")
としよう。 [↩]