薛学彦:标记语言和数字出版的内容加工
作者:薛学彦 时间:2012年06月05日 来源:百道网·薛学彦专栏
订阅《新出版日报》 分享到微博:收藏
(2)条评论
(点击图片 进入论坛)
【
百道网薛学彦专栏】
对内容的描述大致有两种方式,所见即所得方式(WYSIWYG)和代码编辑(source code editing)方式。所见即所得方式是一种看上去很美但实际会出现很多问题的方式,对数字出版来讲危害很大。
早期的出版就是按照一定的规范对信息进行加工,是传统编辑对作者的蝇头小字圈圈点点最终送给排字工人的过程。
今天的数字出版依然是这样的过程,只是信息的载体和呈现的方式不同罢了。除了一般意义上的校对和修改,数字出版还需要对内容进行计算机模式下的“圈圈点点”,即使用标记语言来描述或者标记作者的内容。
如何描述内容是数字出版的关键,这关系到如何把正确内容还原给用户,如何把正确的内容推送给用户。所有这些都和描述标准和标记的准确性有关。
无论外界多么喧嚣、多么炽热地讨论数字出版,出版社的定位一定是内容加工。对技术的探讨、对技术环境下的产品摸索,则不是出版社的首要任务。
标记过程中的内容识别,指对正文文本特征的认识和标记。例如,同样一个“居中”的内容,可能有不同的意义:可能是一个标题,也可能是一种内容引用或强调;同样是“斜体”,可能是强调,也可能是书名;同样是“黑体”,可能是强调,也可能是术语的表现方法。等等。编辑对“内容识别”最有发言权、识别水平最高。所以,传统编辑的转型和培训显得非常重要,一个出版社应具有一只较高水平的数字编辑团队。
对内容的描述大致有两种方式,所见即所得方式(WYSIWYG)和代码编辑(source code editing)方式。所见即所得方式是一种看上去很美但实际会出现很多问题的方式,对数字出版来讲危害很大。例如,网页中看上去是一个段落的内容,段后可能是硬回车也可能是软回车;看上去同样是序列的内容,有些是序列有些可能不是序列。
代码方式似乎复杂,就数字出版来讲,其标签集是相对有限的,是容易掌握的。一旦掌握,效率远远高于所见即所得的方式。它在准确识别文本的同时允许编辑使用最准确的标签、进行批量标注,还允许1本和多本epub格式电子书同时完成。若有100本书,效率提高100倍,若有1 000本书,效率提高1 000倍。从这个意义上讲,最好的编辑工具则是“文本编辑器”,一种一直被很多人忽视的软件。
到目前为止,代码编辑模式是内容建设必须经过的桥梁,编辑模式转型,标记语言是第一重要的,通过外部公司加工而实现数字出版的想法,是不可取的(除非对方的加工者也是出版意义上的编辑)。
标记语言是八十年代发展起来的一种用计算机描述内容的方法。DOS环境的WordPerfect 5.1和6.0都允许用户查看并编辑其代码(类似HTML标签);王选发明的华光排版语言(即后来的北大方正排版语言)是一套系统的、复杂的排版语言(亦即标记语言);九十年代发展起来的网络标记语言则是原理相同实现方式不同的用于网络环境的标记语言。
在国外,标记语言的发展经历GML、SGML、HTML和XML等几个阶段,期间也有一些其它标记语言平行发展。就其目的来讲,标记语言就是对内容的描述(即编辑们“圈圈点点”的工作)以方便数据交换。随着计算机软件的发展,人们最终选择最方便、最灵活的XML标记语言,一些非XML出版标准也最终都慢慢靠近XML或者向XML看齐。
虽然标记语言的初衷是用于数据交换,现在它被广泛用于数字出版。在世界范围内,也诞生了某种任务或者项目驱动下的所谓标准(象SCORM),因为说到底,这些标准就是一套自己的标记体系和实现该体系内容推送和显示的程序。
(作者薛学彦从 1990 年开始使用计算机,一直致力于在计算机和英语教学之间架起一座桥梁。1995 年完成和出版相关的词汇筛选工具,1998 年底开始制作个人网站并持续至今,2003 年开始正式介入数字出版行业。)
(点击图片 进入论坛)
点击图片 查看详情
点击图片 查看详情