您现在的位置: 首页
【百道编按】不久前百道发布了一篇文章,作者亚当•海德提出一个观点,即图书未来与浏览器有关,把EPUB看做是浏览器,而不是所谓的出版革新技术,或许对于扩大其应用会有所助益。百道专栏作者薛学彦认为该文所提标准与浏览器之说,概念混淆,误导读者,随后写作此文“也谈EPUB”,亮出的观点十分鲜明:你若是出版人,相信你不会选择 EPUB 。比较两位作者,似乎都想要揭开EPUB的神秘外衣。薛学彦破解EPUB迷思,看清它的本质就是一种电子书格式,海德却把它的本质看成是可以驾轻就熟的浏览器。再看两位作者,海德坐在开源出版的椅子上,对EPUB是小骂大帮忙,是薛文中典型的“非专业且又热衷于电子图书传播的爱好者”;薛学彦虽然非出版人士,却长期参与出版社英语数字平台的设计和开发,因此有更多的传统出版者的视角。本文的写作起因虽为驳斥海德的观点,但作者却认真详细地解说了EPUB的技术特征,以及应用和前景等很多重要问题。敬请读者关注。
前几天看到一篇关于 EPUB 的文章,本人不敢评论该文的是非,因为其来自非常权威的 OREILLY 网站,但是,看完中文和英文后,本人还是想写一下自己对 EPUB 的看法。
一、格式还是标准:EPUB 到底是什么?
这个标题似乎荒唐,但非常有必要弄清楚 EPUB 到底是什么、有什么特征等问题。该问题的答案当然还是来自最权威的 IDPF 官方网站对 EPUB 的定义:
EPUB is the distribution and interchange format standard for digital publications and documents based on Web Standards. EPUB defines a means of representing, packaging and encoding structured and semantically enhanced Web content—including XHTML, CSS, SVG, images, and other resources—for distribution in a single-file format. EPUB allows publishers to produce and send a single digital publication file through distribution and offers consumers interoperability between software/hardware for unencrypted reflowable digital books and other publications.
该定义叙述了 EPUB 的基本特征,下面是本人对定义的理解。
其一,EPUB 是用于传播和交换数字文档的格式。这里的关键词是“格式”(format),即 EPUB 也象 .DOC 文档一样,是一种文档格式,当然,任何一种文档格式都可以被认为是一种标准,因为一种文档格式只可能由一种应用软件生产,如微软的 .DOC 文档只可能由其不同版本的 WORD 来生产一样,WPS 或者 WORDPERFECT 等不可能生产出 WORD 文档格式。所以,这里的关键词是“格式”,而不是“标准”(standard)。
其二,EPUB 基于网络标准(Web Standards),或者我们也可以把这个“网络标准”理解为“格式”,即 HTML 及其相关技术如 CSS。这一点清晰地表明 EPUB 和网络标准的关系,即网络技术是“父”,EPUB 是“子”。这也不难解释为什么当今普天下的网络工程师大谈 HTML5 时 EPUB 也不得不跟着更新版本的原因。
其三,EPUB 是用单一文档发布内容的一种方式,这种方式涉及对结构化和高度语义化的网页内容的表现(representing,即内容)、封装(packaging,即相关内容的压缩,因为 EPUB 的实质就是换了文件名后缀的 ZIP 文档)和编码(encoding,即标签使用)。“一种方式”(a means)指“文档格式”;“结构化”是指 EPUB 文档本身有固定的结构,包括文件夹结构及文档内部结构;“高度语义化”(semantically enhanced)是指内容标记使用的标签具有语义化特征。
其四,EPUB 是一种非加密、非固定版式的电子图书文档,它不仅允许文档制作者发布内容,也方便用户使用。“非加密”(unencrypted)指文档没有象 .MOBI 格式文档一样对文档进行数字加密,任何人均可以打开(unzip)和编辑 EPUB 格式文档,当然也可以非商业性地传播文档;“方便用户使用”(interoperability)指这种文档在各种硬件和软件环境中的兼容性,inter- 指“相互”,-oper- 指“操作”,-ability 指“能力”,也就是说 EPUB 可以方便地用于支持该格式文档的所有软件和硬件上;“非固定版式”(reflowable)指版式可随环境而变化。
从上述定义不难理解,EPUB 是一种文档格式,它具有开放性的特点,内容按照非固定版式特征呈现,使用技术基于 HTML 及其相关技术,所有相关文档按照 ZIP 技术进行打包压缩并使用 EPUB 文件名后缀。
从上述定义还可以看出,EPUB 不是“浏览器”,不是“程序”(或曰“应用”),也必须有其它软件或硬件去解析该文档格式的结构和标签,而这些软件或者硬件开发者必须遵循 EPUB 规范(specifications)对 EPUB 格式进行识别、对内容标签进行解析和读取。
二、长了羽毛同时嘎嘎地叫,它真的就是鸭子吗:编解码和“浏览器”
下面岔开主题谈几句“浏览器”。
狭义地讲,“浏览器”(browsers)就是解析(或曰“解码”,即 decoding)“超文本标记语言”(hypertext markup language)的程序,例如,要把 <p></p> 解析并表现为“段落”;为文本添加标签被称之为编码(encoding),用浏览器去解析这些码的过程被称之为解码,这种编解码的原理和电话声电转换、调制解调器等原理一样。
编码过程是任何文字处理器(word processors)都有的,否则,用户就无从对内容进行排版。排版的过程其实就是程序为内容添加标签(即编码)的过程,而这些标签自然要由程序认识(解析或解码)它。
文字处理器生产的文档被称之为格式文档(formatted document),如 .doc 文档等,这些文档通常不可以被文本编辑器(text editors)读取(其实读取后用户看到的是乱码)。有些文字处理器允许用户查看格式文档的内部编码,个别程序如 WORDPERFECT 甚至允许用户修改这些编码。
假如把读取 EPUB 格式的程序或内嵌类似程序的硬件可以“不严谨地”称之为“浏览器”的话,WORD、WORDPERFECT、WORDSTAR 等文字处理器也可以被看成是“浏览器”,因为它们的工作原理一模一样,只是使用的标签和封装文档的方式不同罢了。
虽然文字处理器包括编解码过程,但和 HTML 文档的工作过程不同,因为文字处理器的编解码是在同一个环境中完成的。因此,我们说 WORD 不仅是编码器,也是解码器。
EPUB 文档的编辑和 HTML 文档编辑过程是一样的,均可以使用任何文本编辑器,但解析这个文档,则需要其它程序了。
对 EPUB 是浏览器的说法,本人实在不敢苟同,因为它只是一种文档格式罢了。
三、EPUB“ 标准”说:如何理解标准?
回答该问题,需要理解什么是“标准”。
一种工业标准是国际范围内各个工业组织必须遵守的,象录音磁带、录像带等工业产品,全球必须遵循一种规范并依照规范进行生产。
EPUB 是这样的工业标准吗?明显不是。
俗话说的“大二分之一录像带”全世界只有一个标准,只有一个规格,播放这种录像带的机器也只能有一种规格。这是标准。
电子书生产时,KINDLE 使用 .MOBI 格式,盛大使用 .SNB 格式等,大家都会首先考虑自己利益地进行电子书格式制定和研发。
换句话说,EPUB 是由热衷于 EPUB 的一群人(象 XBMC/WIKI/SIGIL 工作组)制订出来的一种文档格式。这群人关注的不是硬件、不是内容,而是 EPUB 本身。
依照本人的理解,假如把 EPUB 当成电子书的世界标准的话,那么所有生产电子书的人都必须遵守 EPUB 规范,进行电子书生产。可在计算机行业是非常不可能的,例如,我们不能说 WORD 程序或者文档就是业界的“文字处理标准”。
所以,我们不可以说 EPUB 就是电子书制作标准,只能说它是众多格式中的一种格式。假如说 EPUB 是标准的话,.MOBI 格式的电子书格式又是什么呢?!
四、谁选择 EPUB?假设你是出版商
回答这个问题似乎也非常容易:即需要进行电子图书交换和传播的人需要 EPUB,借助 EPUB 进行商业化运作的机构或个人需要 EPUB。
出版商会选择 EPUB 吗?回答是“不一定”,因为出版商是要讲“盈利”的,是要讲“版权保护”的。就上述官方对 EPUB 的定义看,它明显不具备保护版权的功能(目前有将版权保护是否引入 EPUB 规范的争议),也不可能给出版商带来利润。
更需要 EPUB 的是非专业且又热衷于电子图书传播的爱好者,而这些人制作的电子图书也必须具备“无版权争议”或“非盈利”等条件。例如,某网站就曾经和正在利用没有版权争议的小说等大量制作 EPUB 格式的电子书,然后进行传播。
生产硬件或者开发软件的人也会需要 EPUB 格式,因为在众多人选择免费图书且喜欢 EPUB 格式的时候,EPUB 明显会给这些人带来利益。如国内外众多硬件厂商。
商业化的电子书制作者或者电子书销售者不一定选择 EPUB 格式。一个例子就是 AMAZON 公司对 EPUB 的态度。当 AMAZON 2011 年 5 月 18 日宣布可能计划在 KINDLE 上支持 EPUB 格式时,将近两年后的今天,用户仍然需要通过第三方软件对 EPUB 格式进行格式转换后方可把内容推送到 KINDLE 设备中。原因很简单,AMAZON 不可能让非版权保护技术摧毁自己的利益堡垒。SONY 在 2009 年下半年宣布支持 EPUB 等通用格式的目的,自然是要扩大自己的硬件销售,因为它在内容上根本不是 AMAZON 的对手。
你若是出版人,相信你也不会选择 EPUB 的。
五、EPUB 会成为 APP 吗?
APP 即 APPLICATION,也就是“应用”,也就是“程序”。
从历史的角度看,一种文档格式发展的过程不会改变其性质。文字处理器有几十年的发展历史,但是文字处理的原理永远都没有变化,无论原始的 WORDSTAR 还是今天的 WORD。EPUB 属于传统“文字处理”家族,其内容处理方式一定是行特性的,这一点还受网络技术因素影响。
所以,EPUB 可以有其新版本出现,但是基本原理不应该有太大变化,EPUB 应该还是 EPUB 而不是“应用程序”。
或者说有一天 EPUB 摇身一变成为程序了,这时它就不再是 EPUB 了,它将和今天众多以程序方式呈现图书内容的软件没什么两样,EPUB 怕届时会失去其特有的东西,是否还会有人喜欢、是否还有优势则应该另当别论了。刚刚发布的 WINDOWS 8 就给人一种“不男不女”的感觉,一方面是所谓超炫的 METRO 风格,可是使用 WINDOWS KEY + E 的快捷键去浏览自己的计算机时,它马上现出过去的面孔。
六、和 EPUB 相关的问题
虽然众多硬件宣布支持 EPUB,但 EPUB 在内容显示方面问题还是很多的。这些问题均存在于因为对内部标签解析方面。例如,ALDIKO 软件不会将较大的表格分割到两个页面上,较大图片的显示在所有硬件上也均不是很美观,硬件对标签的支持参差不齐等等。目前,EPUB 格式对某些硬件来讲,和纯文本格式的文档差不多。
这些问题其实不是 EPUB 本身的错误,而是程序开发对 EPUB(或者说对 HTML)规范遵守的程度不同造成的。
七、EPUB 的前景究竟如何?
和其“父亲”相比,电子书的安全性明显是 EPUB 规范制订者要考虑的问题,这也是为什么 IDPF 甚至对字体的嵌入条件都规定得非常苛刻。
众所周知,浏览器经常出现安全方面的问题,而相对于具有相当年龄的浏览器来讲,EPUB 的生存环境显得更加脆弱,硬件环境、网络环境都会对 EPUB 的安全性产生影响。
但是,到目前为止,EPUB 确实受人欢迎,原因之一是其较好的用户体验如翻页效果,另一方面是 EPUB 的制作成本非常低,任何一个编辑经过半天的培训均可以掌握 EPUB 电子书的制作。众多硬件对这种具有自由精神的 EPUB 的支持也是它目前红火的原因。
假如 EPUB 要顾头又顾尾的话,至少首先在安全性方面制订规范,假如 EPUB 的制作因为其安全性等各种考虑而给图书生产商提高开发成本的话,EPUB 的光环怕也就没有了。
EPUB3 对 XML 的完全支持也不一定是好事,因为 XML 涉及的技术比 HTML 多一些,这也增加开发成本。
尽管 EPUB3 支持 JaveScript,但我相信在 EPUB 环境中使用该脚本语言时,也肯定没有在网页上使用 JaveScript 更自由,这正如 EPUB 规范对内嵌字体的使用要求一样。
EPUB 说到底也只不过是一种电子书格式,假如它对某人有用,那么它就有用,否则,它确实没有那么值得推崇。若未来的 HTML 添加某种图书虚拟翻页标签且有浏览器支持的话,我宁愿选择这种 HTML 技术开发自己的商业产品,因为这种技术不仅可以阻止盗版,同时会给出版人带来利润。
北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信,以及百道学习APP和小程序等平台上发布的文章,版权属于北京百道世纪网络信息技术有限公司所有,或北京百道世纪网络信息技术有限公司与著作权人共同拥有,严禁转载。任何纸媒、网媒或社交媒体需要发布或转载,请与版权专员联系(service@bookdao.biz),获得授权后,方可转载。对于任何未经授权的转载,我们将依法追究其侵权责任。
扫描二维码 分享文章