2. 文法情報が付加されたコーパスの代表的な例は,BNCコーパスである。このコーパスは,品詞情報のみで,基本形(lemma) に関する情報は付加されていない。
| (1) BNCコーパス[*注3] | (2) (1)の原文テキスト |
これに対して,次のトルコ語の例のように,品詞情報に加えて,形態・基本形(lemma)・意味に関する情報が付加されたコーパスもある[*注4]。
| (3) トルコ語コーパス | (4) (3)の原文テキスト |
ここで,(1) と (3) を比べてみると,一口に文法情報が付加されたコーパスといっても,付加された情報のタイプと組み合わせがまったく違うだけでなく,情報付加を表す表記形式がまったく異なるという,事実にぶち当たる。たとえば,
したがって,BNCコーパス用に開発された検索プログラムを使ったBNCコーパスの利用に習熟しても,(3)のトルコ語のコーパスを利用するために直接役立つノウハウが得られる可能性は低い。むしろ,(3)の形式で文法情報が付加されたファイルをコーパスとして検索するためのツールの開発が必要となってくる。