日本言語学会第121回大会(2000/11/25-26)：松村一登

[ ページ： 1 2 3 4 5 ]

4. エストニア語方式とフィンランド語方式の両方に共通するのは，形態分析プログラムの出力を整形して，文法情報が付加されたコーパスとして利用するという点である。さらに，エストニア語用の ESTMORF とフィンランド語用の FINTWOL の動作の共通点は，文を単語に分割し，個々の単語を context-free で形態分析して，分析の曖昧性を(5),(6)のようにすべて列挙する形で出力が行われることである。

TD>

(5) ESTMORF の出力のサンプル (6) FINTWOL の出力のサンプル

lood "<toista>"

      lood+0 //_S_ sg n, //       "toistaa" V PRES ACT NEG

      lood+d //_S_ pl n, //       "toistaa" V IMPV ACT SG2

      loog+d //_S_ pl n, //       "toistaa" V IMPV ACT NEG SG

      lugu+d //_S_ pl, n, //       "toinen" Q PRON PTV SG

      loo+d //_V_ d, //       "toinen" ORD NUM PTV SG

　(5),(6)が与える文法情報は，基本的に，基本形(lemma)，品詞，形態論的カテゴリーの３つであり，情報のタイプの点で (1) のＢＮＣコーパスと (3) のトルコ語コーパスの中間にある。そして，検索を容易にするために，１つの単語の形態分析が複数行になる(5),(6)のような形式を，１単語ごとに改行する(7),(8)のように変形すると，基本的に (3)のトルコ語コーパスの場合と同じ体裁になる。

 (7) lood    lood+0{S_sg_n}lood+d{S_pl_n}loog+d{S_pl_n}lugu+d{S_pl_n}loo+d{V_d}
 (8) toista  toistaa{V_PRES_ACT_NEG}toistaa{V_PRES_ACT_NEG}toistaa{V_IMPV_ACT_SG2}toistaa{V_IMPV_ACT_NEG_SG}toinen{Q_PRON_PTV_SG}toinen{ORD_NUM_PTV_SG}

　形態分析プログラムの出力を１単語ごとに改行する形式に整形して作ったエストニア語とフィンランド語のコーパスのサンプルを，それぞれ(9)と(11)に示す。

(9) エストニア語のコーパス　　 (10) (9)の原文テキスト

(11) フィンランド語のコーパス (12) (11)の原文テキスト

　コーパスへの文法情報の付加と言う観点からいうと，(3)のトルコ語ファイルと(9),(11)のエストニア語ファイル・フィンランド語ファイルには，大きな違いがある。それは，後者が形態論的な曖昧性をそのままにしていることである。ただし，この違いは，検索プログラムが「疑わしきはすべて拾う」仕様になっていれば，実際上問題とはならないので，この発表では，曖昧性の解消(disambiguation)の問題は論じないことにする。

[ ページ： 1 2 3 4 5 ]

最終更新日 2002-10-10

(5)	ESTMORF の出力のサンプル		(6)	FINTWOL の出力のサンプル
	lood			"<toista>"
		lood+0 //_S_ sg n, //			"toistaa" V PRES ACT NEG
		lood+d //_S_ pl n, //			"toistaa" V IMPV ACT SG2
		loog+d //_S_ pl n, //			"toistaa" V IMPV ACT NEG SG
		lugu+d //_S_ pl, n, //			"toinen" Q PRON PTV SG
		loo+d //_V_ d, //			"toinen" ORD NUM PTV SG

(9) エストニア語のコーパス	(10) (9)の原文テキスト
(11) フィンランド語のコーパス	(12) (11)の原文テキスト