コンピュータによる検索が可能になっている大量の言語資料をコーパス(corpus)と呼びます。1990年ころ,コンピュータによる用例検索に基づく文法研究に興味をもち,エストニア語のテクストを少しずつ手で入力し始めたのが,私にとってのコーパス言語学とのつきあいの始まりです。
コーパス言語学というと,英語の巨大なコーパスを使った用法研究や,大規模なテキスト資料を用いた自然言語処理系の実証研究を思い浮かべる人が多いと思います。しかし,現在,この地球上で話されている6000~7000の言語のうち,こういった大規模なコーパス研究が可能となる条件が整っているのは,現時点ではせいぜい10言語かそこらだろうと思われます。
ウラル諸語の場合,コーパスと呼べそうな量の電子化されたテクストが現在利用できるのは,私の知っている範囲では,フィンランド語とエストニア語だけで,その他のウラル諸語のテキストの電子化は,ウラル言語学にとって,まだまだこれからの課題です(ただし,ハンガリー語についてはよく知りません)。
フィンランド語とエストニア語の場合,単語を文法的に分析して,品詞や活用形の名前を自動的に教えてくれるコンピュータ・プログラムが開発されていて,私も利用しています。このようなプログラムを利用すると,単に電子化されただけのテクストの集合体から,単語ごとに文法情報が付与されたコーパスを作ることができます。
ウラル諸語の多くは,いわゆる文字のない言語か,書きことばあっても新しすぎたり,あまり使われなかったりして,言語資料の大部分は音声記号によって転写されたテキストであるケースが多いことで知られています。したがって,音声記号で書き取ったテクストをコンピュータ処理する実際的な方法の確立が,ウラル諸語のコーパス研究のための前提になり,より具体的には Unicode を使いこなして 多言語処理 (multilingual computing) を行うためのツールの開発を行う必要があります。
2000~2002年度に実施した「消滅に瀕した言語の言語資料のコンピュータ処理のためのデータ構造・分析ツールの研究」という科研費プロジェクトで,IPA 音声記号などの特殊な文字を効率よく入力するためのツールとフォントの開発を行いました ( 「フィールド言語学者のための Unicode ツール」参照)。
危機言語の言語資料のコンピュータ処理の研究は,2003~2005年度の「音声記号等で表記された言語資料のマークアップとコンピュータ処理」という科研費プロジェクトに引き継がれました。このプロジェクトでは,ロシア・旧ソ連で話されるキリル文字系アルファベットで表記される非スラブ系少数言語や,文字をもたず音声記号による転写のみ存在する少数言語のテキスト資料のコンピュータ処理を目的とし,ウラル言語学で用いられる音声記号 (Uralic Phonetic Alphabet) の本格的な OpenType フォントを開発しました。このフォントには,Unicode に登録されているラテン文字系(IPA音声記号を含む),ギリシア文字系,キリル文字系の特殊文字を一通り含んでいます。
コンピュータによる多言語処理は,言語学者の観点からみると理想からは程遠い現状ですが,Unicode の普及が本格化するとともに,まだ問題点は残っているものの,文字を持たない言語のテキストの音声記号による転写もホームページ上でなんとか表示できるようになる [実例] など,明るい希望がもてるようになって来ました。テクストの処理でもっともよく使われる Perl 言語が本格的に Unicode に対応したほか,テキストエディターなどのアプリケーションやツールでも Unicode への対応が流れとなっています。
ウラル諸語を始め,電子化された言語資料が比較的少ない言語や,そもそも言語資料が少ない少数言語の言語資料の収集と電子化は,2006~2008年度の「ロシアおよびその周辺の少数言語のコーパスの構築と記述的・歴史的研究」という科研費プロジェクトでも続けています。