4. エストニア語方式とフィンランド語方式の両方に共通するのは,形態分析プログラムの出力を整形して,文法情報が付加されたコーパスとして利用するという点である。さらに,エストニア語用の ESTMORF とフィンランド語用の FINTWOL の動作の共通点は,文を単語に分割し,個々の単語を context-free で形態分析して,分析の曖昧性を(5),(6)のようにすべて列挙する形で出力が行われることである。
| (5) | ESTMORF の出力のサンプル | (6) | FINTWOL の出力のサンプル | ||
| lood | "<toista>" | ||||
| lood+0 //_S_ sg n, // | "toistaa" V PRES ACT NEG | ||||
| lood+d //_S_ pl n, // | "toistaa" V IMPV ACT SG2 | ||||
| loog+d //_S_ pl n, // | "toistaa" V IMPV ACT NEG SG | ||||
| lugu+d //_S_ pl, n, // | TD>"toinen" Q PRON PTV SG | ||||
| loo+d //_V_ d, // | "toinen" ORD NUM PTV SG | ||||
(5),(6)が与える文法情報は,基本的に,基本形(lemma),品詞,形態論的カテゴリーの3つであり,情報のタイプの点で (1) のBNCコーパスと (3) のトルコ語コーパスの中間にある。そして,検索を容易にするために,1つの単語の形態分析が複数行になる(5),(6)のような形式を,1単語ごとに改行する(7),(8)のように変形すると,基本的に (3)のトルコ語コーパスの場合と同じ体裁になる。
(7) lood lood+0{S_sg_n}lood+d{S_pl_n}loog+d{S_pl_n}lugu+d{S_pl_n}loo+d{V_d}
(8) toista toistaa{V_PRES_ACT_NEG}toistaa{V_PRES_ACT_NEG}toistaa{V_IMPV_ACT_SG2}toistaa{V_IMPV_ACT_NEG_SG}toinen{Q_PRON_PTV_SG}toinen{ORD_NUM_PTV_SG}
形態分析プログラムの出力を1単語ごとに改行する形式に整形して作ったエストニア語とフィンランド語のコーパスのサンプルを,それぞれ(9)と(11)に示す。
| (9) エストニア語のコーパス | (10) (9)の原文テキスト |
| (11) フィンランド語のコーパス | (12) (11)の原文テキスト |
コーパスへの文法情報の付加と言う観点からいうと,(3)のトルコ語ファイルと(9),(11)のエストニア語ファイル・フィンランド語ファイルには,大きな違いがある。それは,後者が形態論的な曖昧性をそのままにしていることである。ただし,この違いは,検索プログラムが「疑わしきはすべて拾う」仕様になっていれば,実際上問題とはならないので,この発表では,曖昧性の解消(disambiguation)の問題は論じないことにする。