はじめに
今日はフランス語学の研究に役立ちそうなウェブ上のリソースを紹介したい。主に、ウェブから使える辞書やコーパスを紹介する。基本的に言語学者向けに書いている。もっとも、フランス語学習者である一般の人であっても、ある程度フランス語ができる人なら役立つ面があるはずだ。
なお、今回紹介するサイトは、サイト自体が英語やフランス語で書かれているものが多いのでご注意を。また、私はフランス語学の専門家でも何でもないので、内容が適切でないところがあるかもしれない。もし間違っている点があったら、コメントしていただければ幸いである。
辞書類
翻訳のためのインターネットリソースにて、オンラインで使えるフランス語の辞書の紹介がある。ここから、オンラインで使える仏和、和仏、仏仏を探せば便利だろう。また、 lexilogos というサイトでは様々なオンラインのフランス語辞書を引くことができる。古い辞書の情報も豊富だ。
Le grand dictionnaire terminologique は、カナダのケベック州の政府が提供しているオンライン辞書で、ITなど様々な分野の専門用語の意味・英訳を調べることができる。
Joualvert.com では、カナダのケベック州のフランス語の小辞典を提供している。英訳も付いている。また、La Base de données lexicographiques panfrancophone (BDLP)は、フランス語圏の様々な地域の語彙に関する情報を集めており、小辞典のように使える面もある。
オンラインで検索できるフランス語の類義語辞典として、Dictionnaire Electronique des Synonymes がある。
古い時代のフランス語を扱った辞書
中世のフランス語は現在のフランス語とは違うものであり、それ専門の辞書がある。また、古い時期に出された辞書は、その当時の言語を反映していると考えられるので、昔のフランス語を調べるときに役立つであろう。
Dictionnaire du Moyen Français (1330-1500) というサイトでは、中世フランス語の単語を調べることができる。
Dictionnaires d’autrefois というサイトでは、フランス語の古い辞書が検索できる。少し昔のフランス語の意味を調べるときに役立つだろう。なお、インターフェースは英語である。このサイトに収録されている辞書で一番古いのは、ジャン・ニコ (Jean Nicot) が1606年に出した Thresor de la langue française という辞書である。また、フランス語の辞書の中で最も権威の高いアカデミーの辞書 (Dictionnaire de l’Académie Française) も初版(1694年)、第4版(1762年)、第5版(1798年)、第6版(1835年)、第8版(1932-35年)が収録されている。他には、1787-88年に出た ジャン=フランソワ・フェローの Dictionaire critique de la langue française という辞書が収録されている。
また、Petit Larousse Illustré de 1905 では、1905年に出たPetit Larousse Illustré という辞書の中身を検索できる。
コーパス
Centre National de Ressources Textuelles et Lexicales (CNRTL) では、様々なフランス語のコーパスがダウンロードできる。コーパスの形式はおおむねXMLである。このサイトにあるコーパスとしては、
- Frantext (フランス語の文学作品)
- Est républicain (L’Est Républicain という新聞のデータ)
- Corpus d’articles de linguistiques issus de la revue “Sciences Humaines” (言語学に関する記事)
などがある。
LEXICOMETRIE version O は、様々なフランス語の文章をコーパスにしたものである。収録されている文章としては、
- フランス語の政治演説(主に20世紀。ドゴールやミッテランなど。)
- フランス語の演劇(17世紀。コルネイユやラシーヌなど。)
- 11人のフランス語作家の文章(バルザック、シャトーブリアンなど。著者判別の訓練などにも使える)
がある。このコーパスは、The University of Oxford Text Archive というサイトを通じて無料で配付されており、同サイトでメールアドレスを入力すると、そのメールアドレスにコーパスをダウンロードするためのURLが送られてくる。
また、The University of Oxford Text Archive では、The Chambers-Rostand Corpus of Journalistic French というコーパスも配付している。これは、Le Monde, L’Humanité, La Dépêche du Midi の3種のフランス語の新聞のデータ [1] を収録したものである。
REDAC というウェブサイトでもフランス語のコーパスをいくつか提供している。例えば、フランス語版ウィキペディアのテキストから抽出した Corpus WikipédiaFR2008 や、現代社会の問題に関して議論している文章を収録した Corpus GÉOPO などがある。
Leeds collection of Internet corpora は、フランス語をはじめ、様々な言語のウェブページをコーパスにして、オンラインでコンコーダンスやコロケーションを検索できるようにしたものである。インターフェースは英語である。フランス語を調べる場合には、検索の際に “French” を選択しよう。品詞の指定もできて便利である。
Scientext というウェブサイトでは、Textes scientifiques (français) という様々な分野のフランス語の科学論文をコーパスにして、オンラインでコンコーダンスやコロケーションを検索できるようにしたものを提供している。検索の範囲などを細かく指定できる。ただし、細かすぎて、インターフェースがかえって使いづらくなっている感がある。使いこなすまでには、慣れが必要であろう。
Corpus lexicaux québécois というウェブサイトでは、カナダのケベック州のフランス語に関する様々なコーパスの情報を提供している。
音声コーパス
今まで見てきたコーパスは基本的に書かれたテキストを対象としたコーパスであったが、コーパスには音声を収録したものもある。こうした音声コーパスを紹介しよう。
BACKBONE Corpus Search では、ヨーロッパの諸言語による語りのビデオ・音声をオンラインで検索・閲覧することが可能である。フランス語のデータを見るには、[French Corpus] を選択し、[Load Corpus] のボタンを押す。そうすれば、インタビューごとに、語っている人の写真と概要、そしてビデオ・音声・書き起こしたテキストなどへのリンクが表示される。単語や品詞ごとに検索できるし、コロケーションなどを調べることもできる。
また、CbLLE品詞検索エンジン(話言葉フランス語) では、品詞・単語からフランス語の話し言葉のデータを検索することができる。
対訳コーパス
英仏対訳コーパスとして、Le corpus BAF というものがダウンロードできる。また、OPUS – an open source parallel corpus は、ウェブ上にある翻訳文書を用いた対訳コーパスであり、フランス語が関わる対訳コーパスも収録されている。
フランス語は英語と並んで国連など様々な国際機関の公用語となっている。このため、国際機関では同じ内容の文書を英仏両語で作成することが多い。こうした文書を生かして、対訳コーパスにしている例がいくつかある。
United Nations Corpora では、国連で作成された文書を国連の6つの公用語の対訳コーパスにしたものをダウンロードできる。すなわち、フランス語の他、英語・スペイン語・ロシア語・中国語・アラビア語の対訳コーパスである。
Europarl Parallel Corpus では、欧州議会の議事録を元に作られた、英語とフランス語の対訳コーパスがダウンロードできる。
また、厳密に言えば対訳コーパスではないが、翻訳者が訳した例文を検索できるウェブサイトがあり、使い方によっては対訳コーパスと同じように言語の対照研究に使えるだろう。
glosbe: オンライン翻訳メモリ は、そのようなウェブサイトの1つであり、ある言語から別の言語に訳した例文を探すことができる。例えば、フランス語の “grand” を英語に訳した例では、“big, great, high, large” など様々な語に置き換えられていることが分かる。もちろんフランス語と英語の訳だけでなく、フランス語とドイツ語など、他の組み合わせも見ることができる。様々な言語の対訳例を掲載。このサイトはインターフェースを日本語にすることもできるが、機械翻訳を使っているのか、少し日本語が変である。
Linguee も同様に、翻訳者が訳した文章を対訳の形で検索できる。このサイトに収録されているのは、フランス語関係では英⇔仏の対訳のみである [2] 。インターフェースはドイツ語であるが、シンプルなインターフェースなので、ドイツ語が分からなくても大丈夫だろう。最初の検索ページで、“Englisch ⇔ Französisch” を選択して、検索欄に調べたい英単語もしくは仏単語を入れ、“Suchen” というボタンを押せば、英⇔仏の対訳を検索できる。
古い時代のフランス語のコーパス
The University of Oxford Text Archive で古い時代のフランス語のコーパスがいくつか配付されている。 以下に紹介するコーパスはいずれもメールアドレスを入力すれば、無料で手に入れることができる。
例えば、Paris speech in the past というコーパスは、中世フランス語のコーパスであり、どちらかと言えば話し言葉に近い文章が収録されている。これはリッチテキストフォーマットで配付されている。また、Old French corpus という古フランス語のコーパスがある。これはテキストファイルで83.2キロバイトの大きさしかなく、分量としては大したことがない。
頻度表
どの単語がよく出現するかを調べた頻度表が各所で公開されている。
例えば、Jean Véronis 氏が自分のウェブサイトでフランス語の書き言葉と話し言葉の頻度表を公開している。また、Large Corpora used in CTS というページの下部に様々な言語の単語の頻度表が掲載されており、インターネットコーパスに基づいて作成したフランス語の頻度表もある。
頻度表というわけではないが、Google ブックス Ngram Viewer で、5グラムまでの Ngram の出現頻度の変遷を調べることができる。これは、Google ブックスに収録されているフランス語 [3] 書籍のデータから Ngram を作成して、それを検索できるようにしたものである。データとしては、19世紀初頭のものからあるので、通時的な変化を調べるときに役立つかもしれない。なお、非常に分量が多いが、この Ngram のデータセットがダウンロードできるようになっている。
フランス語学関連の学術論文を探す
フランス語学に関連する論文が多く載っている学術誌については、日本フランス語学会が「海外雑誌リスト」 [4] というものを用意しているのでそれを参考にすると良いだろう。また、同学会のウェブサイトには、「海外雑誌論文目録アーカイヴ」としてフランス語学を 中心に過去に海外で出た論文を年ごとにピックアップした目録がある。これに基づいてフランス語学関連の学術論文を探すのも良いだろう。
自然言語処理用のツール・データ
自然言語処理用のツールについては、英語その他の言語を主眼として開発したものであっても、辞書などを変更することによってフランス語に適用できる場合が多い。品詞タグ付けツールの TreeTagger もその1つで、フランス語の品詞タグ付けもできる。
言語処理用の辞書データ
FreeDict は自由に使える辞書データを提供しているサイトであり、仏・独、仏・英、仏・蘭などの辞書データがダウンロードできる。収録語数はさほど多くない。自然言語処理などで遊びたい人向け。なお、FreeDict Online Query を使えば、辞書データをダウンロードしなくても、Freedict の辞書の内容をオンラインで検索できる。
Dicollecte では、OpenOffice のスペルチェック・文法チェック用のフランス語辞書を提供している。
その他
フランスのEHESS(社会科学高等研究院)が作成した日本語言語学専門用語和仏辞典というものがあり、ここには言語学・日本語学の用語フランス語訳が挙げられている。日本語から対応するフランス語の術語を調べられるだけでなく、フランス語から対応する日本語の術語を調べることもできる。なお、「和仏辞典」と銘打っているが、術語の英訳も載っている。
Centre National de Ressources Textuelles et Lexicales (CNRTL) で、フランス語の語彙の形態情報をXMLにまとめたデータとして、Morphalou というものを配付している。動詞ならば、どういう形に活用するのかがすべてリストされている。
REDAC では、フランス語の語彙や形態に関するデータをダウンロードできる。また、« Les verbes français » (French Verbs) by Jean Dubois and Françoise Dubois-Charlier では、フランス語の動詞に関する情報を調べることができる。