言語研究と統計の関係

概要
統計が言語研究とどう関わってくるのか、そして言語を研究する者はどのように統計を勉強すれば良いのかについて。研究対象におけるバリエーションが無視できない場合と大量のデータを扱う場合は統計の知識が必須である。具体的には、大量のテクストデータ処理、実験処理、教育データの三分野で統計が必要になるだろう。

はじめに

今や言語研究は統計を無視することができなくなった。もちろん、統計を使わない手法で言語を研究する人も多いのだが、そういった人でも他の人の研究を見るときには統計の知識が必要な場合が出てくる。だから、これから言語研究を志す人にとって、統計の知識は必要不可欠だと私は思う。ここでは、統計が言語研究とどう関わってくるのか、そして言語を研究する者はどのように統計を勉強すれば良いのかについて簡単に触れたい。

なお、実際にどうやって統計を勉強していけばよいかについては、「言語研究者のための統計の学び方」という記事を参照されたい。

言語研究における統計の使用

伝統的には、言語研究において統計が使われることはなかった。しかし、徐々に言語研究にも統計的手法が使われるようになった。それでは、統計を用いる言語研究とそうでない言語研究の間にはどのような違いがあるのだろうか。端的に言えば、研究対象である言語現象に含まれるバリエーション(変異・変動)が無視できない場合、統計が必要となる。以下、まず、統計を用いない言語研究について紹介し、その後統計を使用する言語研究について述べていきたい。

統計を用いない言語研究

言語研究において必ず統計を使うわけではない。統計を使わない言語研究も少なくない。実際、構造主義言語学や(伝統的な)生成文法などでは、統計を使うことがほとんどなかった。これらの研究では、言語は等質であると仮定していたのだ。つまり、ある言語を話す母語話者はみな同じようなものであり、多少の違いはあったとしても、それは無視できると考えていたのである。

生成文法では、議論に用いる証拠として文法性判断を用いることが多い。文法性判断というのは、ある文が文法的に成立するかを母語話者が判断することである。例えば、以下の3つの文で、1番目と2番目は自然な文だが、3番目の文は日本語としておかしい。 こういった文法性判断を積み重ねていくことで、議論を進めていくのである。

  1. 太郎が歩道を歩いた。
  2. 花子が太郎を歩かせた。
  3. *花子が太郎を歩道を歩かせた。 [1]

こういった文法性判断を行うとき、普通は多くの人に判断してもらうことはしない。研究者が母語話者であれば、研究者自身の判断で済ませてしまうことが多い。このように済ませられるのは、母語話者が等質であって、この研究者も他の母語話者と同じような判断をするだろうと仮定しているからである。

統計を用いる言語研究

バリエーションなくして統計の必要なし

だが、母語話者は必ずしも等質ではない。男と女で判断が違うかもしれないし、年代によっても判断は異なるかもしれない。そして実際、性別や年齢によって用いる言葉は違い、この違いに着目しようとする研究もすでに色々出ている。要するに、言語のバリエーションに注目した研究があるのである。このようなバリエーションを重視する言語研究では統計が重要な働きを果たすことになる。

統計の必要性については、「バリエーションなくして統計の必要なし」(If no variation, no need for statistics) という言葉でまとめられるだろう [2]

バリエーションに着目し、統計を使うことが多い言語研究としては、以下のようなものがある。なお、これは一例であって、ここにないものでも統計を使う場合もあるし、ここにあるものでも統計を使わないときもある。

大量のデータの処理

バリエーションをあまり重視しない場合でも、統計を使った方が良い場合がもう1つだけある。それは、大量のデータを処理する場合である。

言葉というものはみながみな使っているものであって、音声の形にせよ文字の形にせよ、毎日大量の言葉が紡ぎ出されている。しかし、人間の持つ能力では、世界の隅々まで精細に捉えるのは難しい。統計は、大量のものを捉える手法として有用であり、言語データの分析にも十分役立つ。

伝統的な言語研究では、必要最小限の例文だけ挙げて議論することが多かった。しかし、少ない例文からではどうしても取りこぼしてしまう言語現象が出てくる。こういったとき有効なのが、大量の言語データを分析する手法である。こういった大量のデータを扱う言語研究には、以下のようなものがある。

なお、先ほど述べた実験言語学や談話研究などのバリエーションを重視する研究でも大量のデータを扱うことはあるので、そういった場合は二重に統計が必要になる。

言語研究と統計の関わり方

注意しなくてはならないのは、言語研究と統計の関わり方は一通りでないということだ。言語研究にはさまざまな研究対象と研究手法があり、対象と手法に応じて、統計の使い方も変わってくる。

私が思うに、言語研究と統計の関わり方は、大まかに言って3つのパターンがある。1番目はコーパスに代表される大量のテクストデータを処理する研究における統計の使用である。2番目は実験処理における統計の使用である。3番目は教育データにおける統計の使用である。

この3つのパターンはそれぞれ必要となる統計的知識が違ってくるので注意が必要である。もちろん基礎は同じであるが、何を学ぶべきかは少しずつ異なってくる。

大量のテキストデータと統計

コーパス言語学や自然言語処理では、コーパスと呼ばれる大量の言語データを集めたデータベースを用いて研究する。

こういった研究では、ある単語がデータの中に何回出てきたかを調べるといったことも行われる。単に数えるだけとはいえ、これも立派な統計処理である。出現頻度を集計し、どの単語がよく出てくるかを見るだけでも、色々なことが分かってくるのだ。

例えば、英語で未来を表す助動詞には“will”と“shall”の2通りある。昔はこの2つを使い分けていたのだが、現代に近づくにつれ、“shall”を用いずにもっぱら“will”を用いるようになったと言われている。古い時代から現代にいたるまでのテキストデータを集め、そこでの“will”と“shall”の頻度を見れば、大まかなことが分かる。以下の図は、18世紀から現在に至るまでのアメリカの大統領の就任演説の中で、“will”と“shall”がどれだけ用いられてきたかを示した図である。青い線が引いてあるところでそれぞれの単語が使われている。青が濃いところが、その単語が頻繁に使われているところである。図の右側のほうが現代に近いとみなしてよい。

アメリカ大統領就任演説でのshallとwillの分布。右側ほど現代に近い。
アメリカ大統領就任演説でのshallとwillの分布。右側ほど現代に近い。

この図を見れば、“will”はずっと使われているが、“shall”は最近になって使用頻度が急減したと言うことが分かる。このようなかんじで、単に頻度を見て、グラフにするだけでも色々なことが分かるし、そこには統計が用いられている。

またテキストを分類しようということがある。例えば、ある文書が与えられたとき、それが医学に関する文書なのか、法律に関する文書なのか知りたい場合があるだろう。こういった分類の基礎となるのが、大量のテキストデータの分析であり、こういった目的のためには多変量解析という手法が用いられる。

言語実験と統計

実験をする場合は、大量のテキストデータの分析とは違った統計手法を用いることとなる。言語研究での実験と言われても想像が付きにくいかも知れない。普通、実験を受けてもらう人に来てもらって、その人たちに言語データを提示してどういう反応をするかをみたり、言語データを算出してもらったりする。例えば、ディスプレー上に文を表示させてその文を読み終えるまで何秒かかるかをみて、文の複雑さをみる場合がある。また、地域によるアクセントの違いを見るために、色んな地域の人に文章を読み上げてもらってその音を録音するといったことも行われる。

実験の目的はさまざまだが、ありがちなのがグループごとに差があるかどうかを調べるものである。例えば、男と女で違いはあるのか、出身地によって違いはあるのかといったことが問題になる。差の有無を調べるには、検定と呼ばれる統計手法が用いられる。検定を用いると、例えば「こちらのグループとあちらのグループでは、99%の確率で反応時間が違う」 [3] といった主張が示せる。

差の有無の調査は、実験の後に行われるものだが、実験を始める前にも統計の知識は重要になってくる。どのような順番で実験を行えば良いのか、どのような人に実験に参加してもらえば良いのかについても統計の知識で対応できる。統計の知識無しで適当に実験の計画を立ててしまうと、後で実験の結果をまとめるときにうまくいかなくなってしまう。

言語教育研究と統計

教育に関する研究がやりづらいのは、教えたり学んだりするプロセスに関わる要因があまりにも多すぎることが挙げられよう。例えば、外国語を学習する場合、年齢・性別によって学び方は違うだろうし、学習環境であるとか、親の教育観であるとか、本人の性格によっても成果は大きく変わってくるだろう。言語実験の場合、実験者がある程度統制できる面があるが、教育データの場合、統制が難しい。例えば、「小学校で英語を教えた方が良いか、それとも小学校では英語を教えずに国語をしっかり学ばせた方が良いか」 [4]  という問題を考えてみよう。このことを調べるためには、単純に言えば、5歳ぐらいの子どもを集めて、小学校で英語を学ばせるグループと学ばせないグループにアトランダムに分けて、将来どうなるかを見れば良い。しかし、このように分けることが許されるだろうか? 本人や親の希望を無視してアトランダムに決めてしまうのは、相当問題があることである。また、たとえできたとしても、英語を学ばせないグループの子どもの親が、子どもを英会話教室に通わせたりするかもしれない。そうなったら、せっかく学ばせるグループとそうでないグループに分けたのが台無しである。

要するに、教育データは、統制が困難という側面がある。普通の統計手法は、統制がしっかり行われている場合に最大の効果を発揮するので、普通の統計手法をそのまま教育データに適用するのは難しい。実は、こういった場合に対応するための統計手法も色々開発されており、教育データを扱う場合はそういった手法に通じている必要がある。

脚注
  1. この文のように文法的に成立しない文を非文と言う。文頭にアスタリスクをつけることで、非文であることを示すのが通例。 []
  2. なお、バリエーションがある場合、必ず統計なわけではない。バリエーションを無視しても構わない状況であったら、統計は必要ない。 []
  3. 検定をちゃんと学んだことがある人にとっては、この表現はツッコミどころがあると思うが、初心者向けの説明としておおざっぱに書いているいうことでご容赦願いたい。 []
  4. この問いは「良い」の定義をちゃんとしていない点で問題があるが、雰囲気をつかんでもらうために適当に書いているまでである。 []