薛学彦:内容标记和产品策划
作者:薛学彦 时间:2012年08月15日 来源:百道网·薛学彦专栏
订阅《新出版日报》 分享到微博:收藏
微博评论
(点击图片 进入论坛)
【
百道网薛学彦专栏】出版人的内容标记应该是一个系统化的工程。若一个产品采用一套标记方案,最终会导致标记体系的混乱,不利于数据的回收和管理。所以,一个系统化的标记方案一定是出版人根据自己的内容特点而制定出来的一套码集,码集的制定不一定要跟着哪个标准走。
内容和产品是两个不可分割的概念,所谓产品一定是有内容的产品,否则就是空壳,没有存在意义。内容标记和产品策划可以分开进行,也可以是产品驱动模式,即由产品驱动内容标记工作的完成。
但是,出版人的内容标记应该是一个系统化的工程。若一个产品采用一套标记方案,最终会导致标记体系的混乱,不利于数据的回收和管理。所以,一个系统化的标记方案一定是出版人根据自己的内容特点而制定出来的一套码集,码集的制定不一定要跟着哪个标准走。
码集中的标签大致可以分为三个类型,块标记、行标记和字符标记,其性质有交互的和非交互的。
块标记 教材结构大都分为“课文”“练习”等内容,有些英语教材的结构还有“模块”(Module)、“单元”(Unit)等。对这些块状内容的标记,就需要定义块特性标签,如 <module></module> 等。就教育出版来讲,这种块状标签还为统计创造条件,例如,词汇统计或者生词计算或标记等。块标签还可以包括“引用”、“列表”等内容。
行标记 文本处理中的“行”即以一个硬回车为标记的文本串,也就是大家熟悉的“段落”。行标记是标记的主体,文本的大部分内容均为行特性,这部分标记也是最容易的。
字符标记 字符标记通常是记录字符特性的内容,例如强调、作品名称、术语等。这部分标签也最应该语义化,以确保计算机程序的正确检索。
实际工作当中标记的概念也不一定严格按照这三个类型进行。辞书标记的结构化特征更突出,其结构可能是词条、词性、定义、例句、语用信息块等等。至于程序如何使用这些标签,则是排版输出时根据需要而定。定义可以混在一个词条下面,按照一个段落进行,也可以单独成段,排在一个词条下方。
码集的制定可以有两个大的方案:自定义方案和 HTML 兼容方案。自定义方案的语义化程度可能会更高一些,“段落”、“Module”等均可以做标签名称,而HTML兼容方案则可以最大可能地朝HTML码集看齐,例如表示段落的p、表示列表的li、表示表格的 table 等。两种方案各有千秋,前者更符合XML规范,后者可以减少编程压力。
码集的制定还考虑计算机特有的“交互”特征,这种特征在以教育为目的的码集制定场合更为突出,例如,“答案”、“反馈内容”、“分值”等,这些内容特别重要。
内容标记和码集的制定还应该考虑“最小化”概念,也就是“碎片化”。内容标记最小化是内容灵活的保证,更利于内容回收,更方便产品策划。
一个良好的码集非常重要,它直接影响到出版人对内容的管理效率,关系到产品策划。码集制定和内容策划既有关系又相对独立,重要的是出版人要首先保证有一套良好的码集。
(点击图片 进入论坛)
点击图片 查看详情
点击图片 查看详情