要旨

 本は、それ自身のもつ「もの」としての形によって、そこに書かれたテキストの共有、交換の手段となっている。「本」を電子化されたデータとして情報交換の対象にするためには、テキストの文字列のデータのみならず、その「もの」としての形に委ねていた部分を、意識的に記述して、形の再現を図る必要がある。

 特定のワープロファイルの形式による記述では、異なるソフトウェア、ハードウェアの間での互換性に問題があり、ネットワーク上でのデータのやりとりを含めた一般的な情報交換の目的に適わないことが多い。単に記述するだけではなく、記述形式の統一ないしは標準化が課題となる。

 記述形式の標準化には、少なくとも

  (1) 何(どんな構造や体裁の要素)を記述するか

  (2) それをいかに記述するかという、記述の対象と方法の二つの側面がある。

 WWW (World Wide Web) 上での標準的な記述形式になっている HTML (HyperText Markup Language) は、欧文の文書の構造、体裁をもとに考えられており、日本語の文書に現れる要素を適切に記述できるとは限らない。そのことは、HTML による記述要素に対して付加的に文書スタイル情報を重ねる CSS(Cascading Style Sheets) や、文章構造の簡易なしるし付けの方法である setext といった記述形式にも、それぞれ指摘することができる。

 また、Adobe の PostScript 形式や PDF 形式には、ほとんどどんな要素でも取り込めるという特徴があるものの、記述形式としては最終出力に近く、(電子)出版プロセスの中での編集可能な形式、再編集・再利用可能な形式とは言いにくい。

 日本語のテキストを内容とする本の構造、体裁については、従来から日本語組版の方法として長い蓄積がある。また、電子化されたテキストの情報交換としては、できあがった作品の流通という側面だけではなく、執筆・出版の動的なプロセスの中でのデータの共有・交換という側面も重要である。

 組版指定付きデータの情報交換を可能にするには、日本語組版の方法を明示的に記述するとともに、テキスト生成のプロセスになじんだ記述形式を考慮し、情報交換の対象となる要素 (1) とその記述方法 (2) の両方をバランスよく考えていく必要がある。


戻る