忍殺語形態素解析辞書「チャドー」がリリース

概要
小説『ニンジャスレイヤー』の独特の日本語「忍殺語」を分析するための形態素解析辞書「チャドー」について紹介する。

はじめに

「ドーモ。自然言語処理屋=サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。 「アイエエエエ! ケイタイソカイセキ!? ケイタイソカイセキナンデ!?」

小説『ニンジャスレイヤー』の日本語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。

この記事のうち、忍殺語で書かれている部分はジョークです。マジメに信じないでください。

なお、Twitterの@njdict_Chadoというアカウントで、この辞書に関する情報が配信されているので、興味がある人はフォローすると良いだろう。

ニンジャ
ニンジャ [3]

形態素解析とは?

忍殺語での説明

かつてニンジャが横行していた時代、日本の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。このジツを使って文字の並びを分析すると、言葉を形態素という単位に分けることができる。しかも、分けられたものの読みや品詞も知ることができるので、実際便利である。平安時代ではオンミョウジがシキガミを使役することで形態素解析をしていたとも伝えられており、すらすらと形態素解析を行うには長年の修行が必要であった。

しかし、後世に開発された電子計算機によって、形態素解析はベイビー・サブミッションとなった。ゴウランガ! 電子計算機による形態素解析エンジンには様々なものがあるが、キョート・リパブリックのユニバーシティのプロフェサたちが開発したジュマン、人里離れた山奥にあるNAISTのチャセンなどが有名である。なお、NAISTとは、Ninja Advance Inga-oho Salary-man Typhoon (ニンジャ・アドバンス・インガオホー・サラリマン・タイフーン)の略で、キョート・リパブリックのユニバーシティに比べればずっと歴史は浅いながらも、マッポーの世に有能なニンジャを輩出していることで有名である。

さて、形態素解析エンジンの中でも最強とうたわれるのが、メカブである。これはタク=クドー=サンが開発したもので、すこぶる高速である。どれぐらい速いかというと、サラリマンがメイシを交換した次の瞬間に商談を終えるぐらいに速い。ただし、メカブは奥ゆかしいが、形態素解析を行うエンジンに過ぎない。実際解析には辞書が必要だ。辞書がない形態素解析など、カラテのつかえぬニンジャのようなものだ。また、解析のタイショウとなる文章にあった辞書がなければ、たちまちニンジャスレーヤーにやられてしまうだろう。適当な辞書がないために形態素解析がうまくいかないというのはチャメシ・インシデントだ。「アイエエエエエエー! ジショナイ、ナンデ!? ジショオカシイ、ナンデ!?」と叫ぶ自然言語処理屋=サンは数を知れない。

幸いなことにニュービーでも日本語形態素解析が行える辞書として、IPA辞書というものがある。メカブをダウンロードすると最初から付いている。備えよう。

しかし、IPA辞書は奥ゆかしい日本語を解析するための辞書であって、ネオサイタマなどで使われているスタイリッシュな忍殺語を解析するには実際難しい。忍殺語でよく使われる単語の情報が全然載っていないためである。

普通の日本語での説明

形態素解析は与えられた文章を形態素という言葉の単位に分け、その品詞などを決めたりする分析のことである。日本語では、英語のように単語と単語の間にスペースを入れないので、言葉がどこで切れるのかがそう簡単には分からない。文章を分かつことができる形態素解析は日本語の分析にはなくてはならないのだ。

形態素解析を行う際には、そのためのソフトウェアと辞書を用意することが必要である。

日本語の形態素解析ができるソフトウェアには、京都大学で開発されたJUMAN、NAIST [4] Chasenなどがある。また、工藤拓氏が開発したMeCabという形態素解析ソフトは、他の形態素解析ソフトより高速であると言われており、広く使われている。忍殺語形態素解析辞書「チャドー」の辞書は実はこのMeCabに対応した辞書である。

形態素解析の際に重要なのは辞書である。この辞書というのは、紙の辞書のように単語とその語釈が書いているものではない。形態素解析用の辞書には、語釈が書かれていることはほとんどなく、品詞などの情報が書かれている。これをもとに形態素解析を行うのだ。ちなみに、辞書が変われば、形態素解析の結果は変化する。分析対象にあった辞書を用いないとうまく分析することはできない。例えば、中国語の形態素解析を行うときに、日本語の辞書を使ってもうまくいかないのだ。同様に、忍殺語の分析をする場合は、普通の日本語の辞書ではうまくいかない。忍殺語には、「セプク」や「サラリマン」といった普通の日本語の辞書には載っていない言葉がたくさん含まれているからだ。よって、忍殺語の形態素解析を行いたければ、忍殺語の辞書を用意しなくてはならない

形態素解析辞書「チャドー」の利用

忍殺語での説明

普通の辞書ではうまく分析できない忍殺語をうまく解析するための辞書が開発された。忍殺語でよく使われる単語の情報を載せた辞書チャドーである。これで忍殺語特有の表現を解析できるようになった。ワザマエ!

メカブをあらかじめインストールしている環境ならば、忍殺語の形態素解析辞書「チャドー」を使うことは多くのニンジャにとってアサメシ=マエである。そうでなくとも、チャドーの配付パッケージの中に設定方法を書いてあるReadme.txtが入っているので実際簡単だ。スゴイ級の出来だ。忍殺語の形態素解析辞書「チャドー」の5月10日に出たバージョン1.0.0の収録語彙数は7,904。「ニンジャ」という基本的な単語から「ナムアミダブッダ」といったレアな単語まで掲載されており、実際すごい。

「形態素解析…アッハイ…スミマセン…私には…何に使ったら良いか…分からない……」と一般的なサラリマンは言うかもしれない。

忍殺語の形態素解析辞書「チャドー」の配付パッケージには、KH Coderというソフトのための設定がついており、これで形態素解析が詳しくない人でも遊べる。KH Coder は、大量のテキストの中を分析して、よく使われる単語を調べたり、単語と単語の関係を調べることが簡単にできる。このソフトを使うことでニュービーでもカラテにジュージツを極めたスモトリ並のパワーを発揮することができる。ワザマエ! KH Coderをうまく使えば、テキストの登場人物の意外な特徴を捉えることができるかもしれない。例えば、ソウカイヤと一緒に出てくることが多い単語を調べることができるので、そこからソウカイヤを導き出せるだろう。フジキドがKH Coderを使ったら、敵はジリー・プアー(徐々に不利)。

趣味で忍殺語を見てみたいというクロン・ヤクザ、サラリマン、あるいは一般人の方も、忍殺語の形態素解析辞書「チャドー」を使ってみると良いだろう。そんなにハードルは高くない。いいね? Wasshoi! オタッシャデ!

普通の日本語での説明

そこで登場したのが、忍殺語の形態素解析辞書「チャドー」だ。これを使えば、忍殺語の形態素解析が容易になる。配付パッケージの中に入っている Readme.txt に設定方法を書いてあるから、これを見ればできるだろう。

ただし、この辞書単体で形態素解析をすることはできない。形態素解析用ソフトMeCabが必要である。MeCabをインストールしていない人はMeCabの公式ウェブサイトに行き、MeCabをダウンロードの上、インストールしよう。Windowsならば比較的容易にインストールできる。

テキストマイニングソフトKH Coder用の設定ファイルもチャドーの配付ファイルに入っているので、これを使ってテキストマイニングをしても楽しいかもしれない。また、形態素解析をすると読み仮名を得ることができるから、音声読み上げソフトで忍殺語の文章を読ませたいときに使えるかもしれない。

(2014年5月11日追記:ちなみに「ドーモ。ニンジャスレイヤー=サン。ダークニンジャです。」という文章を入れると、MeCabは次のように出力する。

ドーモ 感動詞,*,*,*,*,*,ドーモ,ドーモ,ドーモ,アイサツ,,
。 記号,句点,*,*,*,*,。,。,。
ニンジャスレイヤー 名詞,固有名詞,人名,名,*,*,ニンジャスレイヤー,ニンジャスレイヤー,ニンジャスレイヤー,主人公,ニンジャ,名鑑No.1,
=サン 名詞,接尾,人名,*,*,*,=サン,サン,サン
。 記号,句点,*,*,*,*,。,。,。
ダークニンジャ 名詞,固有名詞,人名,名,*,*,ダークニンジャ,ダークニンジャ,ダークニンジャ,宿敵,ニンジャ,名鑑No.2,
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。

基本的には、品詞・原形・読みの情報を表示するが、「ダークニンジャ」に対して「宿敵」といった情報が表示されるなど、他の情報も含まれている。〔2014年5月11日追記部分終わり〕)

もっと知るためのリンク集

脚注
  1. 『ニンジャスレイヤー』の日本語訳は、Twitterの@NJSLYRというアカウントで連載が行われている。また、『ニンジャスレイヤー』の物理書籍もある。 []
  2. 忍殺語でよく使われる表現をまとめたものとして、『ニコニコ大百科』の「忍殺語」の記事や『ピクシブ百科事典』の忍殺語という記事がある。 []
  3. Flickrより、chrishusein氏によるCC BY 2.0画像を使用 []
  4. NAISTは、本当は NAra Institute of Science and Technology の略で、奈良先端科学技術大学院大学のことである。 []