コンピュータによる検索が可能になっている大量の言語資料をコーパス(corpus)と呼びます。1990年ころ,コンピュータによる用例検索に基づく文法研究に興味をもち,エストニア語のテクストを少しずつ手で入力し始めたのが,私にとってのコーパス言語学とのつきあいの始まりです。
コーパス言語学というと,英語の巨大なコーパスを使った用法研究や,大規模なテキスト資料を用いた自然言語処理系の実証研究を思い浮かべる人が多いと思います。しかし,現在,この地球上で話されている6000~7000の言語のうち,こういった大規模なコーパス研究が可能となる条件が整っているのは,現時点ではせいぜい10言語かそこらだろうと思われます。
ウラル諸語の場合,コーパスと呼べそうな量の電子化されたテクストが現在利用できるのは,私の知っている範囲では,フィンランド語・エストニア語・ハンガリー語だけで,その他のウラル諸語のテキストの電子化は,ウラル言語学にとって,まだまだこれからの課題です。
フィンランド語とエストニア語の場合,単語を文法的に分析して,品詞や活用形の名前を自動的に教えてくれるコンピュータ・プログラムが開発されていて,私も利用しています。このようなプログラムを利用すると,単に電子化されただけのテクストの集合体から,単語ごとに文法情報が付与されたコーパスを作ることができます。
ウラル諸語の多くは,いわゆる文字のない言語か,書きことばあっても新しすぎたり,あまり使われなかったりして,言語資料の大部分は音声記号によって転写されたテキストであるケースが多いことで知られています。したがって,音声記号で書き取ったテクストをコンピュータ処理する実際的な方法の確立が,ウラル諸語のコーパス研究のための前提になります。
2000~2002年度に実施した「消滅に瀕した言語の言語資料のコンピュータ処理のためのデータ構造・分析ツールの研究」という科研費プロジェクトで,IPA 音声記号などの特殊な文字を効率よく入力するためのツールとフォントの開発を行いました ( 「フィールド言語学者のための Unicode ツール」参照)。
危機言語の言語資料のコンピュータ処理の研究は,2003~2005年度の「音声記号等で表記された言語資料のマークアップとコンピュータ処理」という科研費プロジェクトに引き継がれました。このプロジェクトでは,ロシア・旧ソ連で話されるキリル文字系アルファベットで表記される非スラブ系少数言語や,文字をもたず音声記号による転写のみ存在する少数言語のテキスト資料のコンピュータ処理を目的とし,ウラル言語学で用いられる音声記号の本格的なフォントを開発しました。
ウラル諸語を始め,電子化された言語資料が比較的少ない言語や,そもそも言語資料が少ない少数言語の言語資料の収集と電子化は,2006~2008年度の「ロシアおよびその周辺の少数言語のコーパスの構築と記述的・歴史的研究」という科研費プロジェクトでも続けています。この研究プロジェクトでは,1920年頃の標準エストニア語を研究するための言語資料として,エストニア憲法制定会議議事録のテクストの電子化と,コーパスとして利用するためのマークアップを行いました。