您现在的位置:
[百道网·程丽红专栏]CNONIX标准采标是发行专业领域的第一次采标,由于图书ONIX标准是一个国外先进标准,其文本格式不同于我国国家标准,且由于内容多,专业性、技术性强,如何消化吸收再创新,文本如何转换是CNONIX标准制定的难点和重点,其中有几个问题,笔者认为是攻克难点的关键,现就个人的认识和思考与大家交流探讨一下。
(photo credit: CTC)
国际图书在线信息交换标准(ONIX for Books,其中ONIX是ONline Information eXchange的缩写,下文简称“ONIX”)是国际书业标准化组织EDItEUR自2000年推出的,是ONIX族标准1中的第一个标准,同时也是该族标准中应用最广泛的一个标准,经过十几年的发展,已成为一个在世界范围交换丰富产品元数据的图书贸易标准,被称为是自ISBN之后最重要、最成功的书业贸易标准。图书ONIX标准通过规范标准数据格式,可使出版者按标准将丰富产品信息传递到书业供应链上,给经销商、批发商、零售商、数据集成商及其他参与方,还通过提供产品记录内容和结构标准,促进出版者采用更好的内部信息系统;也可使书业供应链下游客户快速下载最新产品信息,而较少需要人工干预,大大降低差错风险。迄今世界上已有英国、法国、德国、意大利、西班牙、瑞典、挪威、芬兰、荷兰、比利时、俄罗斯、美国、加拿大、澳大利亚、日本、韩国和埃及等17个国家书业供应链在应用这一标准。
2007年新闻出版总署启动科技项目《国际图书流通通用ONIX标准预研究》的研究工作,2009年根据预研阶段性成果,向全国出版物发行标准化技术委员会(以下简称“发行标委会”)提出了采用图书ONIX标准制定我国出版物在线信息交换(CNONIX)国家标准项目立项建议,该建议得到发行标委会、新闻出版总署、国家标准化管理委员会的采纳,CNONIX标准制定项目被批准列入当年国家标准制修订项目计划。
CNONIX标准涉及出版发行产业链上全媒体图书产品全生命周期信息,将对我国出版发行业信息化、数字化、国际化、标准化产生深刻影响,在我国出版物发行标准体系乃至新闻出版业标准体系建设中占有十分重要的位置,其质量至关重要。CNONIX标准采标是发行专业领域的第一次采标,由于图书ONIX标准是一个国外先进标准,其文本格式不同于我国国家标准,且由于内容多,专业性、技术性强,如何消化吸收再创新,文本如何转换是CNONIX标准制定的难点和重点,其中有几个问题,笔者认为是攻克难点的关键,现就个人的认识和思考与大家交流探讨一下。
国际图书ONIX标准成功解决了互联网环境下的图书产品信息在全球范围的共享问题,而图书产品信息不能共享一直是制约我国出版发行产业信息化发展的一个瓶颈。发行标委会第一届主任委员、新闻出版总署柳斌杰署长曾在2006年4月18日第一期《图书流通信息交换规则》行业标准宣贯班上作主题讲话“加快推进出版行业的标准化”时指出,“新闻出版业本身是信息化的一个组成部分……出版业是一个很长的产业链,已不是简单的手工劳动,上下链条要有机衔接。从出版环节到发行、到市场、到消费者手中,今后还可能有售后服务,整个链条需同一个标准来进行。……我曾设想,从总署条码开始、到在版编目、一直到流通领域,假如是能有一个准确的标准信息系统,一次出去,全程共享,那么就不会给大家带来这些麻烦。……现代化、自动化的高技术设备装备,必须要有标准化的产品来保证,如果没有标准化产品,这些先进的设备就要放空,生产力就会极大浪费,对我们的发展很不利。……通过使用现代传播技术,通过加速行业的标准化、信息化建设,千方百计提高中国新闻出版业发展的水平,为国家的现代化、为我们的新闻出版产品走向世界做贡献。”采用国际图书ONIX标准目的正是为解决产品信息标准化加工,“一次出去,全程共享”,实现我国图书产品信息共享的目标。
信息数据共享与标准之间是互为表里的关系。信息数据共享的前提是信息数据标准化,实现信息数据标准化的基础是标准。《图书ONIX 产品信息格式规范》(以下简称“图书ONIX规范”)通过对消息高层结构,保证一致性的XML属性、数据验证、字符集和特定字符、和ONIX 文本字段中XHTML、 HTML 或XML 的用法,消息头和产品记录的全面规范,来支持数据标准化及其共享的实现,其中数据元定义在数据共享方面起着非常关键的作用。这一点可从通用元数据标准,等同采用国际标准的ISO/IEC 11179-4:2004的国家标准GB/T 18391.4-2009《信息技术 元数据注册系统(MDR)第4部分:数据定义的形成》和等同采用国际标准ISO/IEC TR 20943-1:2003的国家标准GB/T 23824.1-2009《信息技术 实现元数据注册系统(MDR)内容一致性规程 第1部分:数据元》阐述的数据元定义的目的作用来理解。GB/T 18391.4在引言中明确数据元“定义的目的在于确定、描述、解释和澄清数据的含义,以促进数据元的标准化和可重复使用,并促使信息系统的数据共享与集成”。在正文中指出“准确、形式完好的定义是获得数据一致理解的一个关键条件。形式完好的定义对于信息的交换也是必要的。只有每一位用户对数据有共同和准确的理解,其交换才能是无障碍的。” GB/T 23824.1在附录B.1 “数据元定义”中明确“数据元定义的目的在于用字或短语定义数据元,以便描述、解释数据元,或使其含义明确或清晰。准确而不含混的数据元定义是保证数据共享最必要的方面之一”。
我国采标有三种形式,即等同、修改和非等效,CNONIX采标定位为修改采标。对于修改采标,我国国家标准GB/T 20000.2-2009《标准化工作指南 第2部分:采用国际标准》明确规定:“对国际标准进行修改时,应把与国际标准的差异减少到最小,并应清楚地标示这些差异和说明产生这些差异的原因。” 虽然CNONIX标准所采用的图书ONIX标准是国外先进标准而不是国际标准,不在GB/T 20000.2明确的适用范围之内,鉴于国内还没有专门针对采用国外先进标准的指南,CNONIX标准制定可以参照GB/T 20000.2的有关规定和要求来做。
采标形式确立后,需要确立标准编制原则。
首先需要了解并遵循标准制定和编写的通用原则。我国标准化法和标准化工作导则对标准制定和编写的原则有明确规定。这些原则不仅标准编写时要遵循,标准评价时也要考虑。具体体现在我国标准化法的第八、九、十、十一条有关标准制定的原则,要求制定标准应当有利于保障安全和人民的身体健康,保护消费者的利益,保护环境;应当有利于合理利用国家资源,推广科学技术成果,提高经济效益,并符合使用要求,有利于产品的通用互换,做到技术上先进,经济上合理;应当做到有关标准的协调配套;应当有利于促进对外经济技术合作和对外贸易。
GB/T 1.1-2009 《标准化工作导则 第1部分:标准的结构和编写》在第4章总则中规定了标准编写的六项基本原则,即目标性、统一性、协调性、适用性、一致性和规范性等。在目标性原则方面要求,标准要规定明确且无歧义的条款,以促进贸易和交流;标准应该在其范围所规定的界限内按需求力求完整;清楚和准确;充分考虑最新技术水平;为未来技术发展提供框架;能被未参加标准编制的专业人员所理解。在统一性原则方面要求,每项标准或一项标准的不同部分内,标准的文体和术语应保持一致;类似的条款应使用类似的措辞来表述;相同的条款应使用相同的措辞来表述;每项标准内,对于同一个概念应使用同一个术语。在协调性原则方面要求,出于所有标准整体协调的目的,标准的编写应遵守现行基础标准的有关条款。在适用性原则方面要求,标准的内容应便于实施,并且易于被其他的标准或文件所引用。在一致性原则方面要求,如果有相应的国际文件,起草标准时应以其为基础并尽可能保持与国际文件相一致。在规范性原则方面要求,预先设计,遵守制度程序和编写规则,起草标准时,还需要遵守与标准制定有关的法律、法规及规章,如国家标准管理办法。
在遵循上述原则基础上,对于修改采标,主要需要明确对标准的取舍原则,即明确标准增删改留的原则。就CNONIX标准而言,建议考虑以下几条原则:
(1)对图书ONIX标准中的技术性内容应基本上等同采用;
(2)标准编写兼顾修改采标国家标准编写有关规定要求和图书ONIX内容描述形式特点;
(3)对原标准内容的取舍兼顾国内国际书业贸易信息交换需求,既考虑满足国内出版物供应链上中下游各参与方间信息交换需求,又考虑满足我国出版发行单位开展出版物国际贸易时的信息交换需求。
(4)对原标准内容的增删改要结合我国国情及技术条件,增加中国特色需求内容,删除不适合我国国情和技术要求的内容,对原标准中涉及的国际标准,如果已经被等同、修改或非等效转换为我国国家标准,则在CNONIX标准中采用相应国家标准。
(5)原标准中的专业用语的转换兼顾本专业领域及相关专业领域专业用语,同时要考虑与现行相关国家标准和行业标准相协调。
采标内容修改有三种形式,即结构修改、技术性修改和编辑性修改。对什么是编辑性修改内容,GB/T 20000.2-2009规定,只有“纳入国际标准修正案或技术勘误的内容,改变标准名称,增加资料性附录,增加单位换算的内容等”为编辑性修改,其他则不是。
从元数据角度来说,图书ONIX标准是一个基于XML的应用元数据标准。 出版发行领域应用元数据虽然时间不短,如大家日常业务接触到的CIP数据、ISBN元数据、MARC数据等都是元数据,但对元数据技术在出版发行领域应用的理论研究基础却相对比较薄弱,这无疑会制约对图书ONIX标准的认识。从字面上虽然能了解图书ONIX标准的大致内容,但如果缺乏元数据方面的相关通用技术规范方面的了解,其中内在的技术要求和特点在转换时有可能会被忽略掉。图书ONIX标准基本遵循ISO/IEC 11179《信息技术 元数据注册系统(MDR)》和ISO/IEC TR 20943《信息技术 实现元数据注册系统(MDR)内容一致性规程》的相关规定和要求,这两个国际标准已分别转换为我国国家标准GB/T 18391和GB/T 23824,它们对数据元命名、定义和代码表都有严格的技术规定和要求。以数据元的定义为例, GB/T 18391.4对其形式和内容有严格要求和建议,明确数据(元)定义应该“用单数形式阐述;要阐述其概念是什么,而不是仅阐述其概念不是什么;用描述性的短语或句子阐述;仅可使用人们普遍理解的缩略语;表述中不应包括其他数据或基本概念的定义。”同时建议,数据元定义宜“阐述概念的基本含义;准确而无歧义;简练;能单独成立;表述中不应加入理由、功能用法、领域信息或程序信息;避免循环定义;对相关定义使用相同的术语和一致的逻辑结构;适合被定义的元数据项的类型。”同时还特别指出,“元数据中数据元定义要求与建议并不总是适用于在词汇和语言字典中出现的术语定义。应用在语言字典和元数据注册系统中的要求之间存在差异。元数据注册系统中定义要求比自然语言字典的要求有更多的限制。”也就是说元数据中数据元定义的要求比一般语言字典的要求限制要多。
按照上述规定,在图书ONIX标准转换时,以《图书ONIX 产品信息格式规范》中的“P.19.5 Publishing role code(出版角色代码)”的定义“An ONIX code which identifies a role played by an entity in the publishing of a product. Mandatory in each occurrence of the composite, and non-repeating.”为例,如果转换为“标识一种产品出版中一个实体所扮的一个角色的一个ONIX 代码。在每个出现的<出版者>复合数据元中必备,不可重复。”则比较合乎规范,而如果转换为“ 用于描述相关机构在产品出版中所起作用的ONIX代码”,则不太符合规范。
数据元定义用单数形式阐述是由元数据的特点决定的,这一点对标准的理解非常重要。
由于图书ONIX标准篇幅长,最新修订版的两个子文件共有400多页,内容多,有20多万字,专业性特别强,不仅涉及传统出版印刷发行,也涉及现代数字出版,包含大量的专业用语。由于国际书业贸易上的精细化和技术上的先进性,其中不少专业用语看起来比较陌生,所以专业用语的转换是图书ONIX标准转换的一大难点。在转换中要考虑用语规范的问题,按照目标性和协调性原则,既要充分考虑本专业领域和相关专业领域的专业用语,也要考虑信息技术、数字技术和其他相关技术应用方面的专业用语。为保证转换过程中专业用语的规范性,首先考虑采用本专业和相关专业或通用的现行国标行标中可找到专业用语,其次利用权威工具书和参考资料,再次上网查找。
4.1 尽量采用本专业及相关专业现行国标或行标已有的专业用语,便于业内外交流
例如:“identifier”一词在图书ONIX标准中出现频率比较高,在 GB/T 18391.1-2009《信息技术 元数据注册系统(MDR)第1部分:框架》术语和定义中它对应的中文是“标识符”,其定义为“在一个规定的语境中,能够用来唯一标识与其关联的事物的字符序列。
“composite(data element)” 一词在图书ONIX中出现频率也比较高,在GB/T 15635-2008《行政、商业和运输业电子数据交换复合数据元目录》中对应的中文为“复合数据元”,在《电子商务标准化指南》(中国标准出版社2004年出版)的术语定义中也可查到对应的中文“复合数据元”,其定义为“一个已标识、命名和结构化的、在功能上相互关联的简单数据元组成的集合。”需要解释的是,在国际图书ONIX标准中,也许是为表述的简便,composite后面省略了 “ data element”。如果将之转换为“复合元素”,因“复合元素”的英文对应词为“composite element”,与“composite data element”就出现不一致。
“serials”和“Series”在第一个发行国家标准GB/T 27936-2011《出版物发行术语》已有中文对应术语,分别为“连续出版物”和“系列出版物”。在实际当中出现把这两个英文词意思弄混的现象,如把“serials”看作“系列出版物”,把“Series”看作“连续出版物”,这点要注意。
“contributor” 一词在GB/T 23732-2009《中国标准文本编码》术语和定义中的中文对应词为“贡献者”。现在有的将之转换为“提供者”,根据图书ONIX的配套使用指南《图书ONIX实施最佳实践指南(ONIX for Books Implementation and Best Practice Guide Release 3.0 rev.1 January 2012)》附录词汇表中给出的该词定义“Person or organization responsible for creating the intellectual or artistic content of the product. (参考译文:负责创作产品知识或艺术内容的个人或组织。)”,转换为“贡献者”会更确切,因“提供者”的内涵外延太宽泛。
“Committed backorder quantity”一词中的 “backorder”在GB/T 27936中的中文对应词为“拖欠订单”,照理 “backorder quantity” 意思为“拖欠数”,表示供应商库存虽暂无现货,但是会保证供应的订单数量。由此,“Committed backorder quantity”如果转换为“已确认拖欠数”,相对转换为“可用库存数”准确规范些。
4.2 利用权威工具书和参考资料的解释
例如:“reference name”一词,单从字面上理解容易将之转换为“参考名称” ,但从“reference name”在图书ONIX标准中的作用来看,它和短标记2(short tag)一样,是分配给数据元的一种唯一标识符,在《牛津高阶英汉双解词典(第7版)》(商务印书馆2009年出版)中也可查到该词有“标记”和“标识”的意思,这样如果转换为“标记名” 会更准确简练。
“Imprint”一词,有的将之转换为“版权说明”或“版权页”。根据该词在图书ONIX标准的意思,即出版者在市场销售产品时用的商标名称或品牌,可以发现在《牛津高阶英汉双解词典(第7版)》中查到的 “出版商名称(通常印在第一页的书名下面)”意思较为贴近。另外“版权说明”或“版权页”两个的英文对应词分别为“copyright statement”和“copyright page ”,显然不合适。
4.3上网查找
图书ONIX标准转换中会发现,有不少词在现行标准、传统工具书或参考资料中都难查到,这种情况下,可上网查找答案。例如“Text-to-speech”(缩写为TTS)在图书ONIX代码“表145:使用类型(List145: Usage type)”中以代码值“05” 的英文标签(Label)形式出现,上网可查到中文多解释为“文本转换语音”。TTS是语音合成技术应用的一种,它可将储存于电脑中的文件转换成自然语音输出,可以帮助有视觉障碍的人阅读计算机上的信息。如果将之转化为“文本朗读”,相比之下意思不太准确,也不便交流。
CNONIX标准制定项目是2009年立的项,当时图书ONIX标准的版本是3.0版,在2012年1月,图书ONIX标准又推出了新修订版3.0.1版。最新修订版的主要变化如下:
5.1 标准组成由四个子文件改为两个子文件
3.0.1版将原来的两个子文件《图书ONIX产品信息格式 XML技术说明(ONIX for Books Product Information Format XML Technical Note)》《图书ONIX 产品信息格式 数据元一览表(ONIX for Books Product Information Format Data Element Summary)》(以下简称“数据元一览表”)的内容归并到另一子文件《图书ONIX 产品信息格式规范(ONIX for Books Product Information Format Specification)》(以下简称《图书ONIX规范》)中,《图书ONIX产品信息格式 XML技术说明》改作《图书ONIX规范》正文第2部分“图书ONIX消息(ONIX for Books message)”,《图书ONIX产品信息格式 数据元一览表》改作《图书ONIX规范》的附录A.1“图书ONIX数据元一览表(ONIX for Books data element summary)”,《图书ONIX代码表》子文件不变,只是版本更新升级。
5.2 《图书ONIX规范》的主要变化
(1)正文由三个部分扩展为四个部分,即“导言(Introduction)”、“图书ONIX消息”、“图书ONIX消息头(ONIX for Books Message header)”和“图书ONIX产品记录(ONIX for Books Product record)”,其中“图书ONIX消息”为新移植的内容,主要规范消息的高层结构和一致性。另增设“附录”,包括“图书ONIX数据元一览表”“样例消息(Sample message)”和“ 图书ONIX XML标签全表(List of all ONIX for Books XML tags)”。
(2)复合数据元和数据元描述新增约束条件3(Cardinality)表示。约束条件曾在3.0版的数据元一览表中出现,主要表示复合数据元和数据元(data element)在文件交换中的约束条件和出现次数,用 “1”、“1…n”、“0…1”、“0…n”分别表示“必备且不可重复”、“必备且可重复”、“可选且不可重复”、“可选且可重复”。
(3)部分数据元描述新增XML属性(Attributes)表示。XML属性曾《图书ONIX产品信息格式 XML技术说明》中说明,并在3.0版的《数据元一览表》中出现,主要用来细化数据元内容方面的信息,用以限定数据本身及其表示。XML 属性包括整理关键词(collationkey)、日期格式(dateformat)、语种(language)、版本(release)、文本大小写4(textcase)、文本格式(textformat)或文本文字名称(textscript)等。
(4)示例(Example)例证加带标记名或短标记标记,例如:
示例 02 (Co-publisher),即<出版角色>02 (合作出版者)。
(5)“出版状态(Publishing status)”和“产品可供状态(Product availability)” 两个数据元及“地域复合数据元(Territory composite)”的描述增加了图示及备注,形象直观地展示了数据元与代码表的关联及其基本内容。 “图书ONIX产品记录” “块4:出版细目(Block 4: Publishing detail)”中的数据元“P.20.1 出版状态”,其描述新增的“出版状态”图示及备注,结合《图书ONIX代码表》“表64:出版状态”的内容,形象直观地展示并简要说明了贯穿产品生命周期的出版状态,从预告到绝版的发展变化。 “P.21权利地域范围5和其他销售限制数据元组( Territorial rights and other sales restrictions)”中的“地域复合数据元”主要说明产品适用的地域性权利,其目的是为提供准确和可靠的地理性权利信息,用于计算机系统中确定某种产品能否在特定地域销售,对出版产品国际贸易有用,其描述新增的 “地域内国家和地区的嵌套”图示及备注,说明产品销售指定地域内包括的国家和地区和不包括的国家和地区。 “块6:出版细目块(Block 6: Product supply)”中的 “P.26.17 产品可供状态” 数据元描述新增的 “产品可供状态”图示及备注,结合《图书ONIX代码表》“表65:产品可供状态”的内容,形象直观地展示并简要说明了产品从初始预告到某种形式的“不可供”状态的发展变化。
(6)新增的附录A.1“ 图书ONIX数据元一览表”以表的形式展示《图书ONIX规范(3.0.1)》中出现的所有数据元、复合数据元及其分组分块,包括数据元编号、标记名、短标记、代码表表号、XML属性和约束条件等。
(7)新增的附录A.2“样例消息” 提供了标记名和短标记两种标记形式的消息样例。通过结构化样例,可帮助理解标准正文描述的XML产品记录规范内容。
(8)新增的附录A.3“图书ONIX XML标签一览表”提供了分别按标记名和短标记排序的标记名与短标记的对照表。
5.3 《图书ONIX标准3.0.1版代码表》的主要变化
(1)代码表从第16版更新至第20版,新增了4个代码表,即“表197:套书序列类型(List197:Collection sequence type )”、“表198:产品联系人角色(List198: Product contact role)”、“表203:ONIX成人读者对象评级(List 203:ONIX Adult Audience rating)”、“表204:ONIX退货条件代码(List 204:ONIX Returns conditions code )”。
(2)部分代码表内容进行了更新。例如,有的表增加新代码,及时反映书业新的技术应用、新的业务需求,同时中国特色需求也有反映。例如第17版代码表“表5:产品标识符类型代码表(List5 :Product identifier type code)”新增代码“26”,代码标签为“ISBN-A”,体现数字对象标识符DOI中可互操作的ISBN,新增代码“28”,代码标签为“OLCC编号(OLCC number)”由全国图书馆联合编目中心分配,体现了中国特色需求;在第18版代码表“表163:出版日期作用(List163:Publishing date role)”新增代码“25”,代码标签为“出版者预订日期(Publisher’s reservation order deadline)”,反映了新业务需求。
综上所述,相对图书ONIX标准3.0版,新修订版3.0.1版无论内容、结构和编排都更加科学合理,更加完善实用,更易于理解和应用。按标准编写的一致性原则,参照《标准的编写》(中国标准出版社2009年出版)第六章第一节“采标国际标准的原则”中讲的“采用国际标准制定我国标准,应尽可能与相应国际标准的制修订过程同步,包括一项标准的立项、发布、修订、修正案、技术勘误等各环节和步骤”, CNONIX标准制定需要同图书ONIX标准版本变化进行相应调整。
在标准内容的取舍前要充分了解每部分内容在标准中的作用及实际用途。内容取舍要根据标准制定和编写原则,考虑国内外书业贸易需求,考虑用户使用方便,考虑方便国际交流,考虑与国际接轨,考虑兼顾现实和长远,考虑提升我国书业标准化水平。在标准内容舍弃时要慎重。
例如短标记,它是图书ONIX标准中的一个重要的技术规范性要素,是实现跨语种、跨地区信息交换的重要手段和桥梁。世界上最大的图书产品信息服务商Nielsen的数据库现拥有1620万条产品记录,它收集了70多个国家的图书信息,定期接收160多家出版者的ONIX形式的信息,向世界上100多个国家提供市场领先的数据服务,其中短标记起了关键作用。因此,短标记是不能舍弃的。
又如,图书ONIX标准中复合数据元应用示例和样例消息。在图书ONIX标准正文部分复合数据元后例举了典型应用示例,这些示例能帮助标准用户理解复合数据元内容和用法。附录A.2 “样例消息”是一个典型的消息示例,能帮助理解标准正文内容,也能指导消息文件编写。这也正是图书ONIX标准实用性的一个重要体现。
图书ONIX不是国际标准,其编排格式没有硬性规定,相对灵活,而我国国标编排格式有严格规定。按一致性原则,考虑在文本转换过程中哪些内容能改,哪些内容不能改。原则上,在交换文件中会出现的技术规范性要素内容不改,在交换文件中不出现的非技术性要素内容可根据需要转换。
7.1标准内容编号转换的问题
图书ONIX标准内容编号体例不同与我国国家标准内容编号体例。在图书ONIX标准中,除顶层标题有数字编号外,其它层级标题有的有编号,有的无编号,形式比较复杂。比如:
在“3. 图书ONIX消息头”中,数据元采用“H.”加数字序号的形式,其中“H”是 “Header” (Header:标头)的首字母缩写。
在“4. 图书ONIX 产品记录”中,内容按数据元组块、数据元组、复合数据元、数据元等逐层划分,数据元组块编号用“block” (block:块)加数字序号的形式,数据元组编号用“P.”加数字序号的形式,其中“P” 是 “Product” (Product:产品)的首字母缩写,数据元编号用数据元组编号加数字序号的形式,复合数据元没有编号,复合数据元与数据元的嵌套关系,主要通过版式呈现,复合数据元所包含的数据元内容结束用提示语“***复合数据元结束”标示。
由于我国国标正文章条号均采用数字编号,这样在转换过程中就需要重新设计编号。在设计编号时,需要考虑以下几种情况:一、无编号标题需加编号,如复合数据元;二、复合数据元内容结束提示语“***复合数据元结束”在我国国标中无法呈现,复合数据元与数据元的嵌套关系需要直观呈现;三、复合数据元多层嵌套关系需要直观呈现。加之数据元组类号和数据元编号是非技术性要素,在文件交换中不出现,这样就需要考虑采用层次编号体系替代原编号体系,这种层次编号既能基本体现标准的内容结构和逻辑关系,又能较好地体现复合数据元与数据元、复合数据元与复合数据元的嵌套关系。不过层次编号也有缺陷,就是当嵌套层级较多时,编号会显得比较长。但总体看,层次编号利大于弊。
对于两种形式的编号的联系,可通过在附录A.1 “图书ONIX数据元一览表(ONIX for Books data element summary)”中增加对应的国标章条号关联。
7.2 数据元描述格式转换的问题
先看一个数据元描述示例。
示例原文:
P.19.5 Publishing role code
An ONIX code which identifies a role played by an entity in the publishing of a product. Mandatory in each occurrence of the composite, and non-repeating.
Format Fixed-length, two digits
Code list List 45
Reference name
Short tag
Cardinality 1
Example 02 (Co-publisher)
参考译文 :
P.19.5 出版角色代码
标识一种产品出版中一个实体所扮的一个角色的一个CNONIX 代码。在每个出现的<出版者>复合数据元中必备,不可重复。
格式: 固定长度,两位数字。
代码表: 表45
标记名: <出版角色>
短标记:
约束条件: 1
示例: <出版角色>02 (合作出版者)
从数据元的定义,即“指由一个属性集合规定其定义、标识、表示和允许值的一个数据单元”来看,上述示例中除数据元编号、示例例证外,其他如数据元名称、定义、格式、代码表、标记名、短标记、约束条件均属数据元属性,是数据元的技术规范性要素,从它们之间的关系来看,格式、代码表、标记名、短标记、约束条件、示例,加之有的数据元还有XML属性,都是对数据元定义中所规定的各种属性内容表现形式的具体化。数据元描述这种排列格式直观清晰明了,而且图书ONIX3.0.1另外在附录A.1 “图书ONIX数据元一览表”中展示了数据元的编号、标记名、短标记、属性、代码表和约束条件的横向关联。从国标编写格式规定来看,除需将数据元编号转换为国标章条编号,数据元名称在条标题位置呈现外,数据元其他内容描述格式在转换时可以基本保持不变。
7.3 英文标记名能否转换为中文标记名的问题
图书ONIX提供了标记名和短标记两种标记形式。其中标记名是用英文表示的,那么英文标记名是否可转换为中文标记名呢?GB/T 18793-2002《信息技术 可扩展置标语言(XML)1.0》第9章“中文处理”中明确规定:“除了缺省支持GB 13000(《信息技术 通用多八位编码字符集(UCS)》)之外,XML应支持多种字符集,包括GB 18030(《信息技术 中文编码字符集》)和GB 2312(《信息交换用汉字编码字符集 基本集》)等,所以XML 可以处理中文,即可以使用中文的元素名、属性名以及中文的元素内容等。”,根据此规定,标记名是可以用汉字表示,英文标记名称 可以转换为用汉字表示的中文标记名<出版角色>,两者等效。CNONIX用户主要是中文读者,在标准文本描述和数据元定义中如果采用中文标记名,无疑会对我国标准读者理解应用图书ONIX有用。同时为方便实际应用,在转换中考虑计算机信息交换时要用“英文标记名”,在数据元描述部分继续保留英文标记名,并在附录A.3“图书ONIX全部XML标签表”中增加英文标记名和短标记对应的中文标记名。
(本文原载于:《出版科学》2013年第3期)
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章