您现在的位置: 首页
【百道专稿】数字出版时代,专业出版也不甘落后,数据库也开始玩起了新花样。以MEDELEY为代表的专业的数据库开发商强势进入市场,着力为研究学者们提供更为丰富的内容资源和更为便捷的搜索工具。
学者们纷纷开始通过不同的方式查找学术论文,Siân Harris对传统的A&I数据库和潜在的行业“破坏者”进行了调研。
摘要与索引(A&I)数据库很多年以来都在搜索学术资料上发挥了非常重要的作用。起初,这些索引是设限的,而且以印刷版为基础,但是这些信息很好地利用了这一平台,早早出现在了网络上。
随着在线内容规模的扩大,再加上数据对象标识的广泛运用。这类数据库同时还成为了直接获得相关文章的始发点。
业内的一些重量级玩家在提供可信度高、以订阅为基础的文献目录信息、链接以及最近刚刚兴起的引用信息方面都有着不凡的表现。
“学术数据库的一个关键的角色是,它还是世界上重要研究的目录汇总,”路透社的“知识数据库”产品与市场策略副总 Chris Burghardt如是说。
“最初的触发者是研究者们;这一目录帮助他们理解研究的背景,这样他们就可以更快地开展手头上的项目,”他说。
“科学网是市场上非常特殊的一种数据库。它并不包含世界范围内所有的期刊——大概只有12%的期刊被收录,”他继续介绍说,在数据库中的12000种杂志里,前300种就涵盖了50%的顶尖研究领域。凭借这些期刊,科学网提供了范围广、有深度的信息,最早的资料来源甚至可以追溯到上个世纪初。“我们认为科学网的好处就在于可以帮助研究人员们找到新颖的研究成果并保证我们可提供的搜索结果是充分可信的。
然而,据Burghardt观察,像科学网这样的数据库不仅仅只是获取资料的工具。事实上,“知识数据库”还包括14种其他的数据库,目标在于形成一个“引用宇宙”,容纳更多、更广、更深的领域的信息资料。“知识数据库”提供的是一个区域性的数据库,如中国科学引文数据库。近期他们还在巴西签订了最新合约,把当地的“科学电子图书在线”(the Scientific Electronic Library Online)纳入了“知识数据库”。
路透社还登记注册了其他的专门性的数据库作为“知识数据库”的一部分。其中一个就是工程技术学院的“科学文摘数据库”。
“‘科学文摘数据库’的角色定位是一个容纳了工程领域广泛课题的分类数据库”,工程技术学院的学术出版主要负责人Daniel Smith解释说,“我们马上就要达到我们的第13个破百万的记录,而且我们还能预见每年5%到10%的增长率。我们提供的是专业服务,因此我们并不打算和其他普通的竞争。”
潜在的破坏者
多年来,这类数据库已经得到了广泛的运用和重视。然而,越来越多的在线学术服务的开发和发展,以及因特网本身的发展,为我们带来了一些潜在的“破坏者”,与传统的摘要与索引商业模式瓜分市场份额。
潜在破坏者的重要作用之一就是通过网络搜索引擎帮助用户来搜索和指向学术内容的链接。虽然像谷歌这样的搜索引擎不会把自己的服务范围限于学术内容,但其搜索引擎在向研究人员提供其他相关资料的时候也已经设计得非常精细。谷歌同时也有它自己的学术搜索引擎,名为“谷歌学术搜索”(Google Scholar)。然而这项业务在公司内部看起来像是失宠了,因为在谷歌的首页上没有再出现“谷歌学术搜索”的直接链接,也有一些研究人员直言不讳地说他们会直接使用谷歌进行搜索。
“没人会妄想自己能跟谷歌齐头并进,”工程技术学院的Smith说。
“这是个非常有用的工具,可以帮助我们找到有用的资料,我们不打算跟他们竞争。我们的强项在于我们的搜索是针对工程领域的用户的。”
他还注意到,谷歌的撤回计划并没有针对任何特别的行动。而且此次行动只辐射在线内容。这就可能面临Smith 所说的“睡美人”风险(这一概念在还没有在线搜索的时候就出现了)。他说,打个比方,如汇集太阳能、早期的激光运用以及钢铁船的制造的想法都早在网络出现之前就已经出版了。
因为有质量和相关性的保证,开办很久的订阅式的数据库在竞争中占上风。“没有人真正知道什么样的关联度能在谷歌的搜索排名中靠前,” Smith表示,“而谷歌也不知道用户究竟想用它提供的信息来做些什么。”
拥挤的资源和网络
一些其他的潜在的“破坏”来源于行业内两个特点的同时作用——资源的泛滥和社交媒体的高度发达,这两个因素对于Mendeley这一提供免费的参考资源的管理和社交媒体服务的网站来说都很关键。
今年夏天Mendeley首次发布其应用程序界面就获得了每个月上千万的容量增长,并且其包含了6500万种特殊的文件,有人在博客上预测,Mendeley已经成为了最大的摘要和索引数据库。
这对Mendeley 的创始人Victor Henning来说是个有双面性的消息:“当我们开始做这件事的时候我们并没有希望去替代现有的数据库,即便是我们意识到我们提供的信息都是非常有价值的。”他说。
Mendeley的主要目的是让学者们把他们的文件组织起来并通过社交网络和同行分享信息。然而,很多的研究都得出相似的结论,认为因为Mendeley数据库的容量实在是令人震惊,该数据库覆盖了约为97%的学术论文。
“人们可以发现研究成果并且找到和自己相关的研究。这对于那些没有权限进入Scopus和科学网的用户来说实在是太有用了。” Henning继续说道。
那么,传统的数据库公司又是怎么看待这些潜在的“破坏者”的呢?“我们当然也会关注市面上的开发项目,谷歌学术搜索和Mendeley 都是非常不错的开发项目。”路透社的 Burghardt 说,“谷歌是一家非常厉害的公司,也是一个当你一无所知的时候可以查找资料的好平台,当然,如果你非常清楚你自己想找的是什么,你也可以在谷歌上直接敲入文章的索引号进行搜索。"
在谈论Mendeley的时候,Burghardt注意到Mendeley的搜索方法不同于传统的数据库。“Mendeley被嵌入到更多的研究流程中,尤其他们重点关注了年轻学者们的研究,从这一点上来说,他们的资源丰富度就非常突出。真正的问题在于如何做一个持续的长期计划,”他说。
同样的,印刷的问题在这里也不能被忽略。Mendeley的内容在录入时都是采用PDF格式的,但是许多杂志都还是只提供印刷版。的确如工程研究学院的Smith所注意到的那样:“我们还是在搜索纸质内容——我们现在看到的材料中,有大约50%都是印刷版的。”他介绍说,原因一部分的原因在于地域差别造成的。打个比方,在俄罗斯,还是强调印刷为主的。
提高质量
关于纪录的问题,也还是存在质量标准的。要想丰富Mendeley 数据库的内容,公司就必须和许多出版商合作,来添加平台上现有文章的相关信息。根据Henning透露,这些合作伙伴中包括斯普林格、电气和电子工程师协会以及徳古意特。虽然这是个耗时的过程,但是很有用,因为Mendeley的内容本身已经是有丰富的来源的,而人们大多倾向于添加与自己相关的细节——而这通常会将摘要和数字对象标识排除在外。消除信息歧义也是Mendeley和其他所有引用不同来源信息的平台要面临的一个重要挑战。数据库提供商都非常乐观地认为这一领域的内容质量和相关性都会随着今年底ORCID(一种用于消解作者署名歧义的工具)的出现而有所提高。
“研究的全球性带来的主要挑战在于,很多人的名或者姓都很相似。”路透社的Burghardt介绍说,这就给授权带来了一定的困难。“自动鉴别可能发生的作用很有限。而我认为这个行业可以和ORCID有所合作是件可喜可贺的事情。”
要想在网上找到文献目录信息的方法有很多种。而可以使用的工具也是时时在变化的。打个比方,工程技术学院正在努力把科学文摘数据库和专利搜索工具关联起来,以帮助识别先前的技术。而路透社则正在计划在今年底推出数据引文索引工具。
至少就现阶段来说,不同的工具之间存在相互补充性,并且在研究的过程中发挥不同的作用。但是,正如工程技术学院的Smith所说,他们还是需要记住一个关键的指导思想——“人们使用搜索工具的目的不是为了搜索而搜索,他们是希望找到对自己有用的东西。”
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章