Copyright © 2006 Kazuto Matsumura

言語資料のマークアップ

いわゆる「タグ付け」 (markup, annotation) について

 *データの構造化が当面の目的。最初から詳細な文法的付加情報を加える作業はしない

 新聞記事,小説などの印刷されたテクストの場合
  資料に関するメタデータ(書誌的情報): 言語名,著者,出典,年代,...
  見出しと本文の区別
  段落の切れ目,文の切れ目
  ページの切れ目,脚注,ルビ,...
 談話などの録音資料を文字化したテクストの場合
  資料に関するメタデータ: 言語名,話し手,...
  話者の交替,code switching,...
  ポーズ,咳払いなどなど文字化できない情報をどうするか

 *文字化された言語資料の電子的化は,原資料(電子化する前の資料)に可能な限り忠
  実な文字情報のデジタルな複製を作ることである。本来は目で見て視覚的に解釈され
  る情報を,コンピュータ処理が可能な形式に合わせて解釈するため,メディアの違い
  からくる原資料からの「ずれ」や「ゆがみ」は避けられない。また,原資料に含まれ
  るある種の情報は,再現できないものとして無視されるが,このような「言語外的」
  情報の中には,たとえば,新聞の紙面のレイアウト,書体を変えることによる視覚的
  効果など,読み手にとって非常に重要な情報が含まれていることもまれではない。
   これは,談話の録音を文字化するときに起こるある種の情報の喪失と並行した現象
  と考えられる。たとえば,聞き手にとっては,話し手の声の全体的な印象(緊張して
  いるかリラックスしているか,楽しそうかどうか,自信をもっているかどうかなど)
  は,談話の理解に大変重要な役割を果たすにが,文字化に際してその再現は不可能と
  いってよい。

基本的なタグをつける手順

 1)文字化され,Unicode (UTF-8) でエンコードされたプレーン・テクストのファイル
   (=Unicode のテキストファイル)を手に入れるか,作成する
 2)テキスト・エディタを使って,見出しと本文,段落の切れ目,話し手が交替する箇
   所などが一義的にわかるように,半角スペース,タブ,改行記号などを組み合わせ
   た印を挿入する
 3)2)で挿入した印を,しかるべきタグに置き換えるプログラムを Perl で書く

 *このようにして付加したタグは,それを取り除くともとの Unicode のテキストファイ
  ルが復元されるようになっているのが好ましい。これが保障されないばあいは,タグ
  付け前のもとのプレーン・テキストのファイルを捨てないで保存しておく。
更新日:2006/03/28