其他的公司愿意同它进行一对一的较量——完成这项计划所需要的大量资金足以使其他公司望而却步。
谷歌在这一计划上占尽先机不单是因为它拥有雄厚的财力,更是缘于那些曾经试图将书籍数字化的公司在这条路上没有走得很远。最早承担这个艰巨任务的是由迈克尔·哈特(Michael Hart)在1971年开始的“古登堡计划”(Project Gutenberg)。那时扫描仪和个人电脑还没有出现,所谓的数字化只是将键盘连接到摆在伊利诺伊大学的材料研究实验室里的大型电脑主机上进行数据存取。哈特向一些接触过电脑而且有空余时间的志愿者寻求帮助,他们愿意将公共领域内的重要文学作品的全文录入电脑(他们用不停地打字的手指诠释着“数字”对于“数字化”的意义)。随后,个人电脑的出现使这些志愿者的工作速度得以大幅度提高。
“古登堡计划”一直回避所谓的“权威版本”,认为“在一般读者眼中达到%的准确度的收录文章才是最受欢迎的”。这个计划没有办法很好地涵盖全世界的文学作品:到2002年,该项目仅仅完成了约6300本文学作品的数字化工程,而且所有这些都是完全以纯文字的形式录入,无法体现原书图片所阐释的意义。“古登堡计划”的目标是使纸质文学作品能够更广泛地被接触,其初衷无疑是很崇高的;但该计划固有的局限###之一就是:它被接受的前提必须是读者既不需要也不想要除了纯文本之外的任何东西,同样能给读者带来阅读体验的一些细节,比如字体的变化、书名和标题,以及图书在设计上的微妙特点等,统统被剥夺了。
在传统的出版界眼中最适合完成这项大规模的行动——将所有的图书数字化的机构非美国国会图书馆莫属。到1990年,扫描技术的不断发展带来了数字化成本的大幅度下降,于是国会图书馆开始了他们的数字化计划,几乎将除了纸质书籍之外所有类型的传媒产品都进行了数字化,包括文件、动画、录音、照片。其目的是要建立一个数字化的、记载“美国记忆”的历史资料库。
最雄心勃勃的图书数字化项目始于2001年。当卡内基·梅隆大学收到了美国国家科学基金会(National Science Foundation)为“百万图书项目”提供的50万美元基金时,这项计划正式启动了。为了能够将尽可能多的图书进行数字化,本着“少花钱、多办事”的原则,他们不惜大费周章地将图书运到印度和中国进行扫描。然而,当他们向美国的图书馆提出,要他们提供其馆藏图书并允许将这些图书打包进集装箱,再通过风险很大的海上运往国外进行扫描时,遭到了图书馆的拒绝。遭拒的原因不言自明。布鲁斯特·卡尔(Brewster Kahle),这个在1996年建立了互联网络档案馆(Internet Archive)的互联网创业者——就像他自己说的那样——“跨出了历史###的一步”,因为他将花费了50000美元从堪萨斯市公共图书馆(Kansas City Public Library)购买的15万册藏书无偿捐赠给了“百万图书项目”。 。 想看书来
“登月”计划(4)
之后“百万图书项目”获得了美国国家科学基金会向其另行提供的250万美元基金,并提出该项目最终要达到的目标应远远超过之前设想的“百万图书”,而是要在2007年前将在中国、印度以及埃及把140万册图书全部实现数字化。这些图书中的绝大部分都是用汉语、印度语、###语、法语以及其他一些语种印刷,英语只占了了很小一部分,并且这些图书都是由美国以外国家的大学图书馆提供并履行扫描任务的。很显然,“百万图书计划”更像是一个实验,它的多国合作模式使得这个计划无法实现自立。
2002年,就在谷歌悄然成立了实况调查小组对扫描所有图书的可行###进行调查时,布鲁斯特·卡尔也在谋求着同样一件事,他恳请美国国会图书馆(Library of Congress)将其馆藏的2000万册图书进行数字化。在2002年11月卡尔的一次有关图书馆的发言中,他怀着极大的热情描述了“普遍获得所有人类知识已成为几代人的梦想”的想法,并且坚定地认为古代的亚历山大图书馆就已经在成功地将人类知识集于一处方面做出了榜样。他说,现在的美国国会图书馆应该通过将全部的馆藏图书数字化来媲美甚至超过从前的亚历山大图书馆的辉煌。卡尔是一个有着强大信念的“牛虻”式的人物,他是如此执着于自己的梦想,并且因这个梦想而激动不已,早已将妨碍他实现梦想的种种可能最小化。他很随便地就做出断言,整个美国国会图书馆的藏书数字化工作只需要花费1亿美元就可以完成。卡尔没有解释他是如何计算出这个数字的,但他却乐观地认为美国国会图书馆会愉快地将其所有藏书装船,并统一送往位于印度的海得拉巴进行扫描——之前卡尔在堪萨斯市购买的那批图书就是在那里实现的数字化。
2002年,谷歌的研究小组在总结各个图书数字化项目的经验教训时发现,是花费10美元还是100美元来完成一本书的数字化,取决于许多因素。如果按照平均一本书需要50美元费用计算的话,完成世界范围内的3000万册图书数字化所需要的费用将会是一个惊人的数字:15亿美元。当时的谷歌正处于财富迅速增长的阶段,从2000年的年收益1900万美元、净亏损1500万美元,跃升为2002年的年收益亿美元、净利润约1亿美元,这是振奋人心的增长。但是,以它当时的规模去花费15亿美元的庞大数目进行图书数字化,从财务角度来说显然是不可行的。
谷歌决定,在佩奇和他的同事找到并制定出一套办法来获得书页上的图像之前,公司不会开始图书数字化项目。他们要求找到的办法所花费的成本必须要远远低于正在进行此类项目的其他公司。卡内基·梅隆大学的“百万图书项目”采用的做法从来就不在谷歌管理层的考虑范围之内。还有一种可能降低劳动力成本的办法,那就是依靠机器人扫描仪代替工人来完成工作,但这样的做###使在劳动力成本上省下来的资金用于得不偿失的资产投资上。
谷歌应对图书数字化项目进行中出现的高费用问题的解决办法是,从两个渠道来获得图书的“书源”:一是还在印刷中的图书;一是尚未获得出版权的图书。如果出版商愿意帮忙的话,这些正在付印的图书就能够以非常低廉的费用进行数字化。出版商可以提出用同样的数字文件来给图书进行电子排版,但在许多情况下,这样的电子排版并不能使用,因为许多的网页内容不够规范,不合乎图书出版的页码要求。在这种情况下,谷歌可以利用现成的技术,而且不需要太多花费,将装订好的图书进行所谓的“破坏###扫描”:将书页拆开,然后对每一页进行快速扫描。这只是容易操作的部分。不容易的部分则是数字化——非破坏###地——90%的图书都不会再付诸印刷。书 包 网 txt小说上传分享
“登月”计划(5)
谷歌想出了一个借助交际手段的办法——从西方国家中比较领先的研究型图书馆免费借阅图书,依靠已经制定好的快速扫描技术采集书页上的数字图像,并雇佣低工资的临时工从事劳动密集型的翻转书页的工作。有些图片的确可以看到人和图书在扫描过程中的接触 ——经常会有握着书的手指出现在图片的某个位置上。
谷歌没有透露怎样才能够成功地压缩数字化的成本。但是谷歌图书搜索的项目经理丹尼尔·克兰西(Daniel Clancy)2006年在斯坦福大学作演讲时曾说过,15亿美元是“一个不可以接受的成本”。当时有些公司宣称将一页图书数字化的成本是10美分。假设谷歌花费的成本与这些公司相似,那么将一本300页的图书数字化所需要的费用就是30美元,如果要完成3000万册书的数字化则要耗费9亿美元,很显然这个数字也是令人震惊的。谷歌实际的费用情况可能不会比这个数字低很多,因为作为一项劳动力密集型的工作,该项目已经使用了市场所能提供的最廉价劳动力。按照摩尔定律的算法,放置在一个芯片上的晶体管数量会在一定的间隔期内成倍增加,运算速度的增加导致运算成本的降低,其结果就是谷歌的数据中心每18个月左右就能节省一半的费用。但是很显然,摩尔定律并不适用于人工手翻页码的速度和成本测算。同样地,图书数字化也不可能受益于规模效应,因为扫描一页书或一张照片所需要的时间,绝对不会因为存放在仓库中的图书数量而发生改变。
值得注意的是,谷歌没有采用看似最简单的办法来降低费用:只对一部分最有可能被证明是对其使用者来说有价值的现有图书进行数字化。从一开始,谷歌就打定了主意将所有的图书数字化,因而非常巧妙地避免了在选择哪些图书来进行数字化的问题上引起的有关政治倾向###的麻烦。出于对谷歌一贯秉持的不将任何书籍排除在数字化目标之外的看似“激进”的做法的不理解,有法国评论家认为应该专门成立一个小组,以确保筛选出最好的法语文学作品进行数字化。对此种舆论,谷歌的克兰西(Clancy)回应说:“我们不应该把‘这本书比那本书更有价值’这种观点强加给公众。最好还是不要白费力气。”
谷歌下决心实施它的“登月”计划,这就意味着它必须走好每一步,每一次选择都必须考虑周全,以免招来批评。但是“登月”计划不仅使公司要面对来自各界的批评之声,更令公司官司缠身,原因就是许多正在进行数字化的图书仍处在版权保护期内或者是图书的版权持有人没有许可谷歌复制其作品。而这样的问题在古老的亚历山大图书馆搜集世界信息那会儿是没有人关心的。
正像这部法律的名字所体现的那样——美国的《版权法》要求——必须确保版权持有人的拷贝权利。同时,在没有侵犯版权持有人原有商业价值的前提下,也可通过某种“变通”的方式来实现受版权保护材料的免费“公平使用”。谷歌的数字化项目似乎并不符合所谓的“公平使用”原则,甚至可以说是完全超越了这一原则。谷歌所从事的整体拷贝工作,完全与版权法的“公平使用”原则背道而驰。再说,谷歌的本意并非是向读者提供这些现成的作品,谷歌之所以对这些作品进行拷贝,目的是要为这些作品建立索引目录。谷歌甚至可以辩称,为这些作品编辑索引正是“变通”方式的一种,而以建立索引为目的的作品拷贝恰好符合了“公平使用”的原则。尽管谷歌在这场争辩中常常显得力不从心,但是,谷歌的用户很快就会发现,当他们想要找到一本书时,最有效的办法不是去购买这本书,而是要使用Google的检索。 。。
“登月”计划(6)
如果谷歌能够说服出版商们相信在版权法范围内使用Google索引能使他们出版的图书销售额上升,并争取到他们对图书数字化项目的支持,谷歌就可以顺顺当当地将它的计划向前推进而不用担心诉讼。2003年8月,就在谷歌准备同出版商进行接触的时候,有报道称亚马逊书店(Amazon)已经抢在谷歌的前面就非小说类图书的在线搜索事宜同出版商展开谈判。在不清楚亚马逊计划详细内容的情况下,谷歌邀请出版商把他们所有的书籍——无论是数字形式的或是实物形式的——都列入其索引。如果出版商对此项举动感觉不太放心,他可以选择只放几本书;如果没有准备好全文发送,那么简短摘录,或者图书介绍,甚至是作者的传记都是可以的。谷歌图书搜索结果页上设置一个“购买此书”的链接,将其链接到亚马逊书店(Amazon)、巴诺书店(Barnes & Noble)和百万书店(Books…A…Million)这样的在线图书零售商的网页上。即使用户通过这个链接在网上书店进行了购买,谷歌也只提供免费的服务,不收取任何费用。
亚马逊书店显然不会让谷歌轻而易举地打好这副如意算盘。他们安抚那些对谷歌的提议跃跃欲试的出版商们——如果在亚马逊书店的服务器上出现大量的数字拷贝会导致盗版的风险###提高。他们坚持认为,如果用户可以随意浏览诸如菜谱、旅游指南以及参考书之类书籍的话,而且这类书籍多半也不会涉及到数字化的问题,图书销售量的减少是显而易见的。随后在2003年10月,亚马逊书店公开推出了它的新服务。它夸耀说,已招募了190名出版商加盟它的在线书店,其中包括西蒙和舒斯特集团(Simon&Schuster)和兰登书屋(Random House),并提供多达12万册书的全文检索,这个数目大致相当于一个大型书店的规模。
在亚马逊书店实施“搜索图书内容”项目一年后,谷歌终于公开推出了进军图书检索的奇兵——谷歌出版(Google Print)。即使有更多的时间,谷歌也无法像亚马逊那样赢得出版商的广泛支持与参与。兰登书屋就是一个立场坚定的典型。对出版社来说,亚马逊是一张熟悉的面孔,在图书销售方面很有实力;而对谷歌的印象则是除了会在网络上卖卖广告之外,没什么真本事。在加盟谷歌之前曾经在兰登书屋做过高级副总裁的亚当·史密斯(Adam Smith),同其他一些有出版经验的人一道,被谷歌聘请至其麾下,以帮助谷歌拓展出版业务。史密斯后来曾用“同出版商喋喋不休地交谈”来形容那时的情景。
谷歌在与出版商不断协商以获得新出版图书的数字化拷贝的同时,也在与以研究###为主导的图书馆进行对话,游说他们同意将馆内的部分藏书数字化,同意将出版商正在印刷装订的图书和绝版作品数字化,最终实现将出版过的每本书都拷贝下来的目的。谷歌的这一目标虽然值得称道,但是它的雄心勃勃使整个企业变得缺乏耐心,最终导致了重大的失误。谷歌没有能够将出版商项目与图书馆项目在具体运作上保持各自独立,没有能够与出版商进行耐心的周旋。相反地,它贸然决定单纯依靠图书馆藏书来推进项�