松村一登 :研究分野・関心

言語資料学

私たちは,だれでも母語の使い手として,膨大な量のことばを毎日産出している。しかし,話されたことばは,ほとんどの場合産出されたその瞬間に,また,書かれたことばも,たとえば紙という物理的なメディアが切り刻まれたり,燃やされたりしたその瞬間に,そのとき何らかのことばが産出されたという事実もろとも,過去という時空のかなたに吸い込まれて,失われる。これは,世界のいたるところで,毎日繰り返されている営みである。

ふつうはあとかたなく消えてしまう運命にあることばが,録音されたり,文字化されたりして,運よく保存されたものの1つ1つを「言語資料」と呼ぶことにする(言語資料を集合体としてとらえる際には「言語資源」と呼ぼう)。一般に,話し手が多く,書きことばの伝統の長い言語は,この意味での言語資源が比較的豊かであるが,話し手が少なく,書きことばの伝統が浅いか,存在しない言語は,言語資源に乏しい傾向がある。

従来,文字化された言語資料は,紙やマイクロフィルムなどのメディアに保存され,それを人間が目で読み,あるいは耳で聞いて,必要な情報を抽出する方法で利用されてきた。この状況が1990年代ころから大きく様変わりしつつある。すなわち,人間の目や耳を使って必要な情報を読み取る方法への依存から,コンピュータを用いて情報を読み取る方法を併用する方向,さらには,後者を主たる方法とする方向へと,人文系諸分野の研究方法が急速に移行しつつある。

言語学,歴史学,文学研究をはじめとし,人文系のほとんどすべての研究分野にとって,一次資料としての文字化された言語資料は,必要不可欠のものである。言語学では,辞書編集や文法研究などを目的として集められた大量の文字化された言語資料を「コーパス」と呼び,コーパスを利用した言語研究を一般に「コーパス言語学」と呼んでいる。また,たとえば,社会学における「言説分析」「会話分析」のような領域でも,文字化された言語資料が研究対象となっているし,話されたことばを文字におこして分析することは,精神医学の分野でも日常的に行われている。言語資料学は,狭い意味での人文学の領域を超えて拡がる可能性をもつ。

言語資料の電子化は,大量の一次資料の収集・蓄積を容易にするとともに,情報検索にコンピュータを利用することによって,短時間で必要な情報を抽出し,大規模な実証データに基づく研究を可能にした。また,著作権や個人情報保護の許す限りにおいて,研究者間における大量の一次言語資料の共同利用が可能となるため,人文系諸分野の研究のあり方を大きく変えている。

コンピュータ処理が可能なデータ形式で収集蓄積される言語資料の集合体は,「電子言語資料館」「電子文書館」などと呼び,電子言語資料館を拠り所とする人文系の研究を,「言語資料学」ないし「電子文献学」と呼ぶことにしたい。前者は,研究の対象(電子化された言語資料)に注目した呼び方であり,後者は,研究の方法(コンピュータを用いて行う文献研究)に注目した呼び方である。

電子化された言語資料の蓄積においては,研究者ごとに,研究目的ごとに,研究分野ごとに (しばしば互換性のない) 異なったデータ形式の言語資料を用意するのではなく,研究目的や利用形態が異なっても,複数の研究者や研究プロジェクトの間で使い回しのきくデータ形式の言語資料とすることが,いいかえると言語資料のエンコーディングの汎用性の問題が,今後の課題になってくる。また,言語資料の解析方法としての,より高度な電子文献学的手法の開拓が要請されるであろう。

電子言語資料館は,大量の言語資料を研究者間で,およびコミュニティとの間で社会的共有するための母体となることが期待される。文字化された言語資源を豊富に持たない少数言語を母語とする言語コミュニティの言語資料の電子化に貢献することも,人文系の研究者課された重要な社会的使命であると考える。蓄積された言語資料を利用した研究の成果は,教科書,文法書,辞書などの形で,当該言語を用いる言語コミュニティに還元することができる。さらには,外国語学習教材を開発している出版社やソフトウェア会社との共同研究を積極的に行うなど,より積極的な社会的貢献も可能となる道も開けると考えられる。

更新日 2007/11/08 — © 2007 by Kazuto Matsumura