您现在的位置: 首页
2014年06月23日 来源:百道网
时间:
【百道编按】“灰色文献”的内容,在新技术条件下越来越多地得到利用;移动设备在学术传播中地位越来越突出;出版社利用新技术推出大量新服务和新工具。英国皇家化学学会(RSC)的“学习化学”项目就是一个好例子。
英国独立出版人、拥有20多年出版工作经验的Alison Jones,密切关注新技术条件下学术出版的新方向、新走势,尤其关注内容和新内容形式/容器/包装这对关系中的新现象。她指出,学术出版目前的趋势是:在新内容形式/容器/包装上不断创新,原属“灰色文献”的内容,在新技术条件下越来越多地得到利用;移动设备在学术传播中地位越来越突出;出版社利用新技术推出大量新服务和新工具。在她总结的最后一条,英国皇家化学学会(RSC)的“学习化学”项目(Learn Chemistry)就是一个“好例子”,算是内容与技术结合的“私生子”。
与RSC激情结合的新技术,就是当前风生水起的“大数据”技术。英国IT界杂志《Computing》将“学习化学”项目列为2013年大数据技术进展的突出案例,是饱受争议却似乎无可阻挡的数据库技术进步中首要的正面案例。《Computing》指出,在数据库技术进步中,传统的关系数据库经过40年的广泛使用,正在为面向“大数据”、基于文档的、低成本的、非大公司主导的新数据库技术所取代。
据我们观察,技术领域的革命性变化,正朝着极为有利于出版社的方向发展。RSC大数据技术应用的成功案例,不是偶然的,它同时受到了出版界和技术界的欢迎。
RSC成立于1841年,是欧洲化学科学研究最大的学会组织。该组织在全球拥有4.8万会员,前身是4家名气很大、历史悠久的化学学会:化学协会(Chemical Society)、分析化学学会(Society for Analytical Chemistry)、皇家化学研究院(Royal Institute of Chemistry)、法拉第学会(Faraday Society)。RSC总部在伦敦和剑桥,在美国、中国、日本、印度、巴西等设分支机构。RSC定期组织学术会议等活动,出版行业知名的科学期刊、图书、数据库等。RSC最近还收购了《The Merck Index》,该书历史超过120年,为世界化学行业权威信息载体和参考书。
尽管RSC在内容上的独特作用十分突出,但它一年产生的数据并不值得使用特殊技术进行处理,需要新技术的是他们从十九世纪四十年起积累下的超过170年的内容。这些内容包含数百万的图像、科学数据文件、论文等,涉及超过20万的作者。这些内容格式各异、保存地点各异、且不断积累。2010年RSC开始启动数据管理项目,负责人David Leeming称,他们的目标是:建成一个高度整合的内容库,让所有内容都可面向任何人在线获取——从教师到企业人士到研究人员。
他们的技术服务提供商是MarkLogic。RSC与之合作开发了三个网站平台:一个是出版平台,http://www.rsc.org/publishing;一个是“学习化学”,http://www.rsc.org/learn-chemistry;一个是《化学世界》(Chemistry World),http://www.rsc.org/chemistryworld。它们服务于全球数百万来自大学、科研院所、企业研发部门的科研教学人员。其中“学习化学”面向中小学师生, 2013年11月注册用户数量超过了100万,其突出效果引起了广泛注意。
RSC的数字化之路始于内容的数字化,雇佣第三方公司将学会大量的档案文献数字化,该工作于2004年完成,把140万页的文字和化学方程式转档为SGML和XML文件,并开通网站,以PDF格式实现文件在线获取。
接下来的工作是让这些数字化的内容变得可搜索,但RSC的数字内容库明显不符合关系数据库的特点。MarkLogic认为,RSC需要进行管理的内容格式庞杂:图书、电子邮件、手册、推文、元数据等等,传统关系数据库技术显然不适用。Leeming指出,“图书章节内容不同于期刊论文。关系数据库不能将二者结合起来”。非关系型数据库技术是解决问题的关键。
MarkLogic公司是一家企业级非关系型数据库技术服务提供商,他们的技术有一些好处十分直接的特点,比如能够以XML文档方式存储内容,支持功能强大的搜索功能。对于出版社来说,以文档为基础的数据模式,对处理多格式、元数据复杂的内容十分理想。RSC只要将信息按原样输入即可,无需将每一条输入进行严格的格式化。也正是由于能够处理多格式的内容,才使得搜索等数据库功能得到保证。
数据库功能变得强大后,距离新出版产品和服务就只有一步之遥了。Leeming指出,“我们能够非常迅速地推出在线新刊;现在我们每年都能推出3种新期刊。5年前我们每年出版6000篇论文,现在是3万”。
他们目前使用的平台技术,可以十分方便地向移动平台延伸。这种延伸在出版概念上也是推出新产品的一个形式,尽管内容都是相同的那些。
Leeming强调指出,利用非关系型数据库技术,我们正在改变出版工作的方式。
RSC使用的非关系型数据库技术,关系到当前IT领域里的一个新潮流,即NoSQL技术。传统关系数据库技术发明于1970年,只是到了最近几年,才实现了走向非关系型数据库的突破。2012年,IT界人士普遍认为,NoSQL的势头无可阻挡,堪当数据库技术的一场革命。
NoSQL这个缩写中,“SQL”(结构化查询语言)是传统数据库技术的核心,而“No”一般是“not only”的意思。NoSQL的首要特点是基于文档数据而不是基于表格数据,近年来所谓“大数据”技术,其实就是NoSQL。因此,第二个特点是数据处理量庞大和与此相应的低成本。
在传统关系数据库中,表格数据是结构化的,一般数据库的结构需要一两年就更新一次,反映对数据输入的新变化。NoSQL则没有固定的数据结构。这一点在出版社看来,则多少有天然的亲近感。在学术出版中,图书(专论)、期刊(论文)等是承载内容的主要传统方式,也相当于两种重要的数据结构,是典型的关系型数据库(由结构定义关系)。
但是除了这两种格式,其他的内容,比如实验数据等,往往被称为“灰色文献”,是传统学术出版遗漏的内容。当数据库结构被打破,就自然可以考虑并非无价值的“灰色文献”了,出版社在内容产品开发上,空间变得十分广阔。
实际上,非关系型数据库所能处理的数据类型远比灰色文献丰富。NoSQL越来越多地出现在零售业、媒体娱乐业、政府等,所处理的数据类型多为实时数据。尤其在零售业,对于分析消费者行为极为重要。卫报集团、推特、Netflix等使用NoSQL获得用户行为信息。英国政府网站最近也采用了NoSQL。
NoSQL的另外一个值得重视的特点是低成本。传统数据库技术成本,不仅仅在软件上,更多是在硬件上。传统数据库技术诞生于上世纪七十年,数据存储成本高昂,制约了软件技术发展的思路——首先要保证数据库输入读取次数尽量少。而大家现在都看到了,数据存储技术持续数十年进步,也就是使得数据库技术发展不用再考虑数据存储成本了(还记得几年前风靡一时的“云计算”吗?)。
NoSQL的成本可以低到什么程度?同样处理能力情况下,传统关系型数据库技术往往要求配置大型(甲骨文)Exadata服务器,价格1000万美元,但在NoSQL那边,50台廉价的兼容机服务器,单价5000美元、总计25万美元,就够了。
这个低成本特点,对于出版界来说,重要性是不言而喻的。
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章