『Rによるやさしいテキストマイニング』の紹介

概要
Rというプログラミング言語を使ってテキストマイニングを行う方法について教えてくれる入門書『Rによるやさしいテキストマイニング』の紹介。この分野に不慣れな人のために、1冊で収まるように説明してあることが特徴的である。

はじめに

Rによるやさしいテキストマイニング』という本を著者の小林雄一郎氏からいただいたので、ここで紹介したいと思う。この本は、テキストマイニング――大量の文章から情報を引き出す分析――について教えてくれる入門書だ。

この本は、プログラミングなどの素養がない人にもなるべく分かりやすくなるように、基礎的なところも含めて一から説明しようとしている。このため、他の資料を読まなくても、この1冊だけでテキストマイニングのごく簡単な手法をおさえることができるようになっている。

例えば、テキストマイニングをするときのデータを、具体的にどうやってテキストファイル形式で保存するのかということについても、しっかりと書かれている。コンピュータの使い方に少し詳しい人ならば、テキストファイル形式で保存する方法はわざわざ説明されなくても分かるだろう。しかし、この本は、そうした方面の素養がない人に向けて書かれているため、こうしたささいなことについても説明がなされているのだ。

ただし、テキストマイニングは、そもそも簡単でない面がある。この本は、そういった中でもやさしく説明しようとしているが、どうしても入門者にとって難しいところは出てくるだろう。

以下、この本の内容を前から順に紹介していきたい。

テキストマイニングの概要を知る――基礎編

この本の第1部の「基礎編」では、テキストマイニングの基本的な背景を紹介している。この部分を読むことによって、読者は、テキストマイニングがどんなものかを大まかに知ることができるだろう。

具体的には、テキストマイニングが現にどのように活用されているか、テキストマイニングを支えるデータにはどのようなものがあるのかといったことが紹介されている。

基礎体力をつける――準備編

Rによるやさしいテキストマイニング』という書名には、「やさしい」という言葉が付いているが、これは「あまい」という意味ではない。むしろ、この本には「きびしい」側面がある。

このきびしい側面を反映しているのが第2部の「準備編」である。この「準備編」では、分析用のデータの作成方法と分析用のプログラミング言語 R の基礎が説明されている。

ここの部分は、何が目的なのか分からず、退屈に感じる人もかなりいるであろう。そして、プログラミングなどの素養がない人にとっては、横文字が並んだ分析プログラムのスクリプトは苦痛に感じるかもしれない。しかし、ここはテキストマイニングのための基礎体力を身につける場であり、ここを乗り越えずに次に進むのは難しい。だから、きびしいところはあるかもしれないが、がんばって理解する必要がある。

鬼軍曹が新兵をきびしく育てるのは、新兵が戦場で生き延びられるようにするためだ。最初の試練をくぐりぬけずに戦場に行けば、結局新兵は苦しむことになる。それと同じ話で、このきびしい「準備編」を乗り越えなければ、後で苦労することになるだろう。結局の所、きびしさの裏には、将来苦労しないようにしてほしいというやさしさがあるのだろう。

具体的な分析に入る――実践編

第3部の「実践編」に入ると、具体的なテキストマイニングを実際に行うことになる。ここでは、文章の中で用いられている単語の数を数える方法や、よく似た文章をグループ化する方法などが扱われている。

ここで扱われているテキストマイニングの手法は、基本的なものが多く、複雑なものはあまり載っていない。ただし、複雑なものが載っていないのは、決してこの本の欠陥ではない。この本は、初心者向けの説明に重点を置くことを選んでいるからだ。初心者向けの説明も複雑なテキストマイニングの手法もしっかり説明しようとすれば、到底230ページほどの1冊には収まらなかっただろう。プログラミングなどの素養がない人が、1冊だけでテキストマイニングのごく基本的な手法を学ぶというのであれば、どうしても複雑なところは割愛せざるをえなかったのだろう。

なお、『Rによるやさしいテキストマイニング』の著者である小林雄一郎氏が書いた類書として『Rで学ぶ日本語テキストマイニング』という本がある。

こちらの方は、割と複雑な手法も載っているので、もっと学んでみたいという人は読んでみると良いだろう。また、『Rで学ぶ日本語テキストマイニング』は、『Rによるやさしいテキストマイニング』に比べて、基本の説明があっさりと終わり、具体的な分析事例 [1] が多くなっている。テキストマイニングの方面にある程度素養がある人ならば、『Rで学ぶ日本語テキストマイニング』の方がかえって取っつきやすいかもしれない。

逆に、この方面に関する予備知識がなく、細かいところを色々と丁寧に学びたいというのであれば、『Rによるやさしいテキストマイニング』がいいだろう。

脚注
  1. ただし、載っている事例は言語学的なものがほとんどなので、ビジネスなどでテキストマイニングを使おうとする人にとっては、取っつきにくい面があるだろう。 []