您现在的位置: 首页
【百道专稿】BookLamp网站立志成为新型的图书发现搜索引擎,推出“图书基因组计划”,将图书切分成32160个数据点,对图书中特定属性内容出现的密度和频率进行量化处理,以方便图书的查询和对比。有关情况如下:
如果你认为元数据十分复杂,那来看看BookLamp网站吧。这是一家新的图书发现搜索引擎,追踪每本书中32160个数据点。“我们对一家出版商提供的数字版图书的全文进行处理,”CEO亚伦•斯坦顿(Aaron Stanton)解释道,“我们的计划是将图书切分成100个场景,并对每个场景的“基因”进行测试,寻找132个完全不同的主题元素,以及其他2000个参数。”
读者可以对图书标题进行关键词搜索。专家们戏称该网站为“图书的潘多拉盒”,而斯坦顿更倾向于称它为“图书基因组计划”(Book Genome Project)。
“比方说,你寻找一本类似《达芬奇密码》的小说,我们发现其中18.6%的内容与宗教和宗教机构有关,9.4%与警察和谋杀案调查有关,8.2%与艺术和艺术长廊有关,6.7%与秘密社团和社区有关,还有其他一些元素——只要这本书是在我们的数据库,我们一般都会按照上述类别从书中抽取相应的元素。”斯坦顿说。
2003年,当斯坦顿还是爱达荷州博伊西市的一名学生时,他就创建了BookLamp计划。他和他的室友对理查德•巴赫曼的《瘦一些》进行了扫描,大约要花六个小时,随后他意识到他所做的事情已经超过一个大学生的能力范围。2007年,他认为这个计划对于谷歌来说是完美的,于是他试图举行一个会议。斯坦顿将他的计划带给斯坦福大学计算语言学教授马修•乔克斯(Matthew Jockers)看,乔克斯教授帮助BookLamp的“语境文体分析”设计了方案。
如今,在BookLamp的数据库中已经有20000份文本——主要来自兰登书屋和肯辛顿(Kensington)出版商,总共累积有6.5亿数据点。“我们希望在未来几个月内达到数十亿的数据点。”斯坦顿说。
但计算机是否真的能准确评价一本书的内容?斯坦顿认为可以。“我们的原始模型基于若干个焦点小组,”他说,“举个例子,我们会分别给予他们一份高密度场景与低密度场景的文本,让他们进行评价,以提供模型训练的基础。然后我们再关注那些模型之外的图书,并调整相应的公式。在这种情况下,我们的公式可以像人一样进行训练。”
BookLamp除了对大量细致入微的类别,如“步枪/手枪/武器”,“亲密关系的显性描述”或“办公室环境”进行量化处理之外,还对密度、频率、描述、对话与动作等元素进行相应的处理。
“很多情况下,有别于传统元数据,我们采取主题(thematic)成分和其他元素对图书进行描述,”斯坦顿说。他希望这项计划能够平等地服务于读者、作者和出版商。
最近,你可以在网上看到BookLamp针对目标读者的首次演示。另一方面,作者与出版商不久也会把手稿上传至BookLamp,然后网站将按照统一的标准对手稿内容进行评价。这些作品将进入“活跃的手稿数据库”,出版商可以用它来寻找特定类型的文稿。“比方说,某年吸血鬼主题非常火,你因之减少了有关外星人书稿的接收,而如果下一年潮流又转向外星人,你可以从我们的数据库中搜寻过去错过的符合当前流行趋势的书稿。对作者来说,书稿将永远不会被真正拒绝,因为它永远等待被发现。”
目前,BookLamp最大的障碍可能在于出版商和作者,他们对于图书转换成数字版没有什么积极的反应。现在数据库中图书的存量仅为20000本,这也是网站最受质疑的方面,公司的目标是在年末达到10万本。
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章