はじめに
この記事では、2016年2月に刊行された『岩波データサイエンス Vol. 2』の内容について紹介したいと思う。
- 岩波データサイエンス刊行委員会〔編〕.(2016). 『岩波データサイエンス Vol. 2』 東京:岩波書店.
『岩波データサイエンス』は、統計科学などデータを使った技術についての情報を提供するためのムックである。Vol. 2は、「統計的自然言語処理——ことばを扱う機械」を特集している。このほか、事実上の第二の特集として「ナンプレと魔方陣——作る・解く・数える」が載っている。
ちなみに、岩波DSのTwitterアカウント(@iwanamiDS)の2016年2月9日付けのつぶやきこの本は、ISBNに誤植があったために発売が遅れたそうだ。なお、私の手元にある第1刷の裏表紙のISBNのところには訂正のシールが貼ってある。
特集の内容
統計的自然言語処理について
今回紹介する『岩波データサイエンス Vol. 2』では「統計的自然言語処理」が特集されている。
自然言語処理とは、計算機を使って人間の言語を処理することを指す。Google などの情報検索、日本語のかな漢字変換ソフト、機械翻訳システムなどはみな自然言語処理に基づいて作られたものであり、現代の我々の情報の流通は自然言語処理について支えられていると言っても過言ではない。
そして、現代的な自然言語処理は、統計を多用している。大量のデータを統計の力で分析することで、自然言語処理を達成しているのだ。その意味で、現代の自然言語処理の主流は「統計的自然言語処理」になっている [1] 。
この特集では、最近の統計的自然言語処理について、ごく基礎的なモデルの紹介から始め、現在の先端に近い手法まで説明を持って行っている。ただし、話はやや抽象的である。具体的に手法をどうやって実装するのかという話はあまり載っていない。そこが物足りない点でもある。
具体的には以下のような話題が扱われている。
- 言語モデル、特に n-gram モデル
- トピックモデル
- word2vec
- 計算機に言葉の意味を教える手法
- 機械翻訳
なお、本特集は複数の人によって書かれているが、それぞれの人で話がばらばらになることがなく、有機的なつながりがあるように書かれているように思われる。刊行委員会や編集者が相当努力をしているのであろう。
ナンプレと魔方陣について

ナンプレとは、一定のルールに従ってマス目に数字を埋めるパズルゲームだ。いわゆる数独と同じものだ。数独は商標名なので、一般的な名称であるナンバープレイス、略してナンプレとここでは呼んでいる。実は、『岩波データサイエンス』には、毎号ナンプレの問題が載っている [3] 。
このナンプレと魔方陣についての特集が『岩波データサイエンス Vol. 2』に載っている。単にゲームとしてのナンプレを紹介している特集ではなく、ナンプレや魔方陣に関するアルゴリズムを紹介することがメインとなっている特集である。具体的には、計算機を使ってナンプレを作ったり解いたりする話が載っている。
ちなみに、この本ではあまり触れられていないが、実験計画法ではラテン方格というものが使われるのだが、ナンプレはこのラテン方格の一種である。だから、統計分析と全く関係がないわけではない。