Tatoeba: 外国語の作文に役立つ例文界の Wikipedia

概要
単語ではなく、文を項目に立てた一風変わったオンライン辞書Tatoebaを紹介。

はじめに

今日は、Tatoeba というウェブサイトを紹介したい。このウェブサイトは様々な例文とその各国語訳を掲載している。普通の外国語辞典は単語ごとに項目を立てているが、Tatoeba文ごとに項目を立てた辞典と言えるだろう。また、例文はユーザが自由に登録・翻訳できる。言わば、例文界の Wikipedia なのだ。

こう言われてもどんなウェブサイトなのかにわかには想像がつかないかもしれない。一例として、英語の“I love you.” という例文を各国語に訳したものを挙げよう。これを見れば分かるように、英語の例文を様々な言語に訳したものが掲載されている。Tatoeba にはこのような調子で例文が160万以上収録されている。しかも、普通の外国語辞典には載っていないような例文すら載っている。うまく使いこなせば、外国語の作文の時にきっと役立つだろう。

Tatoeba の特徴

さて、Tatoeba がどんなウェブサイトなのか、具体的に見ていこう。

豊富な例文

Tatoeba の最大の特徴は例文が豊富なことだ。この記事の執筆時点で、例文の数は総計160万以上あり、日本語の例文だけでも16万を超えている。Tatoeba は、田中コーパス (Tanaka Corpus) という日本語と英語との例文対訳集をもとに作られた経緯があるので、日本語の用例が多いのだ。

普通の外国語辞典には載っていないような例文も少なくない。例えば、「この間の会社説明会をドタキャンした上、夏休み初日からアニメとは・・・余裕ね。」とか、「僕が恋するたびに、相手の女の子は僕の異母妹だっておとうさんは言うんだ。」とか、「お酒を飲んだ後の記憶がすっぽりと抜けているんだよ。どうして俺の部屋に知らないおっさんが寝てるんだ?」とかいった文も載っている。

普通の和英辞典などで物足りないところがあれば、Tatoeba の豊富な例文を英作文などに役立てることができるだろう。日本語・英語以外の言語のデータ [1] も多いので、英語以外の外国語の作文にも使える。言語別の例文数は、Stats というページに載っている。

複数の翻訳

Tatoeba は普通の外国語辞典と異なり、1つの文に対して複数の訳が載っていることがある。例えば、「彼の言うようにしなさい。」という日本語の文に対しては、以下の3通りの英訳が載っている。

色んな訳があって戸惑ってしまうかもしれないが、自分の書きたい文章の文体にあった訳を選んでいくようにしたいところだ。また、複数の翻訳例を比較検討して自分の作文をより良くすることもできるはずだ。

ライセンス

利用規約によれば、このサイトのライセンスは、CC BY 2.0 (France) とのことである。後で述べるように例文データをダウンロードすることもできるので、このデータで遊びたい場合も比較的自由に使える。

Tatoeba の使い方

Tatoeba の使い方はとても簡単だ。Tatoeba のサイト上方にある検索欄に検索したい表現を入力して、検索ボタンを押すだけだ。「翻訳元言語」と「翻訳先言語」を限定することも可能だ。検索ボタンを押せば、条件に当てはまる例文のリストが出てくる。

なお、Tatoeba の検索機能はさほど洗練されていないようで、単語の区切れをちゃんと把握してくれないようだ。例えば、「あやしい」を検索したところ、「母親は赤ん坊をひざの上であやしている。」という例文まで引っかかった。おそらく、「あやしい」を「あやし」と「い」に二分割した上で、「あやして」の「あやし」にヒットし、「いる。」の「い」にヒットしたのだろう。これは改良を待ちたいところである。もっとも、検索語をクォーテーションマークで囲むと、こうした二分割はしなくなる。つまり、「”あやしい”」と入力すれば、「母親は赤ん坊をひざの上であやしている。」という例文は引っかからなくなる。

個々の例文ページでは、まずはメインとなる言語の文が記され、その下にその文の各国語訳が示される [2] 。以下の例では、メインの言語として日本語の「どんなに長い日にも必ず終わりがある。」が表示され、その下に英語に訳したもの、エスペラントに訳したもの、ウクライナ語に訳したものが表示されている。

Tatoeba の例文表示の例(「<a href="http://tatoeba.org/jpn/sentences/show/199506">どんなに長い日にも必ず終わりがある。</a>」より)
Tatoeba の例文表示の例(「どんなに長い日にも必ず終わりがある。」より)

上の例では、英語の訳文の前には緑色の矢印が、エスペラントとウクライナ語の訳文の前には灰色の矢印が付いている。この色の違いは、訳が直接的なものであるかどうかによるものである。緑色の矢印は直接的な訳であることを示し、灰色の矢印は間接的な訳であることを示しているのだ。上の例では、エスペラントやウクライナ語の訳文は、日本語から直接訳されたわけではなく、英語から訳されたものである。つまり、エスペラントとウクライナ語の訳文は、日本語と直接つながっているわけではなく、英語を介して間接的につながっているのである。

なお、例文が何語なのかは例文の脇にある国旗によって示されている。日本語なら日の丸、英語ならユニオンジャックだ。よく分からない国旗があった場合でも国旗の上にマウスカーソルを載せてしばらく待てば言語の名前がポップアップするので安心だ。

また、国旗の脇にあるスピーカーのアイコンは、その例文の音声があるかどうかを示している。上の例のように赤い斜線が引かれている場合は残念ながら音声がない。もっとも、音声の付いている例文はそれほどないようだ。ちなみに、「音声付き文章」というリストがあって、そこにいけば、以下のスクリーンショットのように、赤い斜線の引かれていないスピーカーのアイコン、つまり音声データが存在する例文ばかりを見ることができる。

Tatoeba の音声付き文章の例
Tatoeba の音声付き文章の例(「音声付き文章」より)

音声はMP3形式で、今のところ2万6千を超えるデータがあるようだ。

データのダウンロード

Tatoeba のデータはウェブ上で検索するだけでなく、ダウンロードのページから例文データをCSVファイルとしてダウンロードできる。何かの役に立つかもしれない。

注意すべき点

Tatoeba は便利なウェブサイトであるけれども、その記述には注意が必要である。先に述べたように、Tatoeba は誰でも自由に例文を追加できる [3] 。このため、翻訳の品質は保証されない。実際、おかしな訳も結構ある。Tatoeba は例文界の Wikipedia であると言ったが、Wikipedia を使うときと同じく、Tatoeba のおかしな記述に振り回されないようにしたい。

話が変わるが、もう1つ注意すべき点を挙げたい。Tatoeba の日本語の例文には振り仮名がつけられているが、これは人手でつけられたものではなく、機械的につけているものなので、たまに間違いがある。

いずれにせよ、注意すべきところは注意して、うまくTatoeba と付き合っていきたいものである。

脚注
  1. エスペラント、フランス語、ドイツ語、スペイン語などの例文が多い。 []
  2. まだ訳が追加されていない例文もあり、その場合は当然メインの言語の文だけしか表示されない。 []
  3. この記事を読んで興味を持った方は、自分で例文を追加してみても楽しいかもしれない。 []