星球Google:我们的生活将怎样被一家公司彻底改变-第17章

小说：星球Google:我们的生活将怎样被一家公司彻底改变字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

们能够对扫描成百上千万册的书所需要的费用进行大致的测算，甚至能够得出一个在想像力范围内的具体费用。
　　尽管谷歌一直对这个小实验津津乐道，并且声称正是这次测试的结果引发了公司的传奇###发展，但这一说法是否可信还有待商榷。因为在当时的情形下，谷歌是不可能向外界透露任何有关如何获取书页影像的细节的。不过一个不争的事实是，通过这次试验让两位创始人意识到利用扫描仪对装订好的书本进行人工逐页扫描耗费的时间巨大，而使用数码相机则无疑是个更省时省力的办法——只需要零点几秒的时间就可以获取书本当前页上的影像。数年之后的2007年，当负责监督Google图书搜索项目的产品管理部主管亚当·斯密斯（Adam　Smith）被问及到底是使用扫描仪还是数码照相机来对书页进行处理时，他反问道：“有什么区别吗？”
　　事实上，虽然二者的差别看似不大，但是前者因为既浪费时间又浪费金钱而不具有可行###，后者则完全避免了这种情况的出现。2002年，拉里·佩奇访问了他的母校密歇根大学并且会见了学校官员。他告诉校长玛丽·苏·科曼（Mary　Sue　Coleman）女士谷歌能够在6年之内将密歇根大学图书馆藏有的700万册书全部扫描完毕。而在当时，密歇根大学曾预计如果利用其现有资源进行这项工作的话，要花上1000年的时间才能够完成。
　　作为一家私人持股公司，谷歌的股票当时还尚未上市交易，但其股票的持有者，包括它的创始人、风险资本投资人以及早期的员工都一直共同致力于追求企业的利润。谷歌高层并没有将书籍数字化看作是一个慈善项目，他们不考虑向非营利###组织——比如在当时已经开始了图书数字化的密歇根大学——提供资金援助。谷歌关注的是利用Google完成所有书籍数字化的可行###，以及如何使用数码拷贝达到自己的目的。即使Google图书搜索不能够立即产生效益，至少可以预计，该项目的收益将会与谷歌为完成这一项目所付出的巨大投资相称。毋庸置疑，只需要通过浏览网页就能够搜索到书籍的内容，这种前景是多么地令人###。但是当谷歌公开推出这一项目时，也有不少冷眼旁观者对于由这样一家私人公司将全世界的书籍信息收集起来并通过建立词条来赚钱的做法深表不满。

“登月”计划（3）
然而不管怎么说，谷歌的“登月”计划与美国太空总署的月球旅行还是有很大差别的：没有一个竞争对手愿意与它在图书搜索计划上展开竞争。在20世纪60年代，空间探索成为冷战的延伸，美国和前苏联在很多科技领域里势均力敌。然而，在2002年和2003年，在谷歌神不知鬼不觉地开始其图书搜索计划的时候，没有其他的公司愿意同它进行一对一的较量——完成这项计划所需要的大量资金足以使其他公司望而却步。
　　谷歌在这一计划上占尽先机不单是因为它拥有雄厚的财力，更是缘于那些曾经试图将书籍数字化的公司在这条路上没有走得很远。最早承担这个艰巨任务的是由迈克尔·哈特（Michael　Hart）在1971年开始的“古登堡计划”（Project　Gutenberg）。那时扫描仪和个人电脑还没有出现，所谓的数字化只是将键盘连接到摆在伊利诺伊大学的材料研究实验室里的大型电脑主机上进行数据存取。哈特向一些接触过电脑而且有空余时间的志愿者寻求帮助，他们愿意将公共领域内的重要文学作品的全文录入电脑（他们用不停地打字的手指诠释着“数字”对于“数字化”的意义）。随后，个人电脑的出现使这些志愿者的工作速度得以大幅度提高。
　　“古登堡计划”一直回避所谓的“权威版本”，认为“在一般读者眼中达到％的准确度的收录文章才是最受欢迎的”。这个计划没有办法很好地涵盖全世界的文学作品：到2002年，该项目仅仅完成了约6300本文学作品的数字化工程，而且所有这些都是完全以纯文字的形式录入，无法体现原书图片所阐释的意义。“古登堡计划”的目标是使纸质文学作品能够更广泛地被接触，其初衷无疑是很崇高的；但该计划固有的局限###之一就是：它被接受的前提必须是读者既不需要也不想要除了纯文本之外的任何东西，同样能给读者带来阅读体验的一些细节，比如字体的变化、书名和标题，以及图书在设计上的微妙特点等，统统被剥夺了。
　　在传统的出版界眼中最适合完成这项大规模的行动——将所有的图书数字化的机构非美国国会图书馆莫属。到1990年，扫描技术的不断发展带来了数字化成本的大幅度下降，于是国会图书馆开始了他们的数字化计划，几乎将除了纸质书籍之外所有类型的传媒产品都进行了数字化，包括文件、动画、录音、照片。其目的是要建立一个数字化的、记载“美国记忆”的历史资料库。
　　最雄心勃勃的图书数字化项目始于2001年。当卡内基·梅隆大学收到了美国国家科学基金会（National　Science　Foundation）为“百万图书项目”提供的50万美元基金时，这项计划正式启动了。为了能够将尽可能多的图书进行数字化，本着“少花钱、多办事”的原则，他们不惜大费周章地将图书运到印度和中国进行扫描。然而，当他们向美国的图书馆提出，要他们提供其馆藏图书并允许将这些图书打包进集装箱，再通过风险很大的海上运往国外进行扫描时，遭到了图书馆的拒绝。遭拒的原因不言自明。布鲁斯特·卡尔（Brewster　Kahle），这个在1996年建立了互联网络档案馆（Internet　Archive）的互联网创业者——就像他自己说的那样——“跨出了历史###的一步”，因为他将花费了50000美元从堪萨斯市公共图书馆（Kansas　City　Public　Library）购买的15万册藏书无偿捐赠给了“百万图书项目”。　。　想看书来

“登月”计划（4）
之后“百万图书项目”获得了美国国家科学基金会向其另行提供的250万美元基金，并提出该项目最终要达到的目标应远远超过之前设想的“百万图书”，而是要在2007年前将在中国、印度以及埃及把140万册图书全部实现数字化。这些图书中的绝大部分都是用汉语、印度语、###语、法语以及其他一些语种印刷，英语只占了了很小一部分，并且这些图书都是由美国以外国家的大学图书馆提供并履行扫描任务的。很显然，“百万图书计划”更像是一个实验，它的多国合作模式使得这个计划无法实现自立。
　　2002年，就在谷歌悄然成立了实况调查小组对扫描所有图书的可行###进行调查时，布鲁斯特·卡尔也在谋求着同样一件事，他恳请美国国会图书馆（Library　of　Congress）将其馆藏的2000万册图书进行数字化。在2002年11月卡尔的一次有关图书馆的发言中，他怀着极大的热情描述了“普遍获得所有人类知识已成为几代人的梦想”的想法，并且坚定地认为古代的亚历山大图书馆就已经在成功地将人类知识集于一处方面做出了榜样。他说，现在的美国国会图书馆应该通过将全部的馆藏图书数字化来媲美甚至超过从前的亚历山大图书馆的辉煌。卡尔是一个有着强大信念的“牛虻”式的人物，他是如此执着于自己的梦想，并且因这个梦想而激动不已，早已将妨碍他实现梦想的种种可能最小化。他很随便地就做出断言，整个美国国会图书馆的藏书数字化工作只需要花费1亿美元就可以完成。卡尔没有解释他是如何计算出这个数字的，但他却乐观地认为美国国会图书馆会愉快地将其所有藏书装船，并统一送往位于印度的海得拉巴进行扫描——之前卡尔在堪萨斯市购买的那批图书就是在那里实现的数字化。
　　2002年，谷歌的研究小组在总结各个图书数字化项目的经验教训时发现，是花费10美元还是100美元来完成一本书的数字化，取决于许多因素。如果按照平均一本书需要50美元费用计算的话，完成世界范围内的3000万册图书数字化所需要的费用将会是一个惊人的数字：15亿美元。当时的谷歌正处于财富迅速增长的阶段，从2000年的年收益1900万美元、净亏损1500万美元，跃升为2002年的年收益亿美元、净利润约1亿美元，这是振奋人心的增长。但是，以它当时的规模去花费15亿美元的庞大数目进行图书数字化，从财务角度来说显然是不可行的。
　　谷歌决定，在佩奇和他的同事找到并制定出一套办法来获得书页上的图像之前，公司不会开始图书数字化项目。他们要求找到的办法所花费的成本必须要远远低于正在进行此类项目的其他公司。卡内基·梅隆大学的“百万图书项目”采用的做法从来就不在谷歌管理层的考虑范围之内。还有一种可能降低劳动力成本的办法，那就是依靠机器人扫描仪代替工人来完成工作，但这样的做###使在劳动力成本上省下来的资金用于得不偿失的资产投资上。
　　谷歌应对图书数字化项目进行中出现的高费用问题的解决办法是，从两个渠道来获得图书的“书源”：一是还在印刷中的图书；一是尚未获得出版权的图书。如果出版商愿意帮忙的话，这些正在付印的图书就能够以非常低廉的费用进行数字化。出版商可以提出用同样的数字文件来给图书进行电子排版，但在许多情况下，这样的电子排版并不能使用，因为许多的网页内容不够规范，不合乎图书出版的页码要求。在这种情况下，谷歌可以利用现成的技术，而且不需要太多花费，将装订好的图书进行所谓的“破坏###扫描”：将书页拆开，然后对每一页进行快速扫描。这只是容易操作的部分。不容易的部分则是数字化——非破坏###地——90％的图书都不会再付诸印刷。书　包　网　txt小说上传分享

“登月”计划（5）
谷歌想出了一个借助交际手段的办法——从西方国家中比较领先的研究型图书馆免费借阅图书，依靠已经制定好的快速扫描技术采集书页上的数字图像，并雇佣低工资的临时工从事劳动密集型的翻转书页的工作。有些图片的确可以看到人和图书在扫描过程中的接触　——经常会有握着书的手指出现在图片的某个位置上。
　　谷歌没有透露怎样才能够成功地压缩数字化的成本。但是谷歌图书搜索的项目经理丹尼尔·克兰西（Daniel　Clancy）2006年在斯坦福大学作演讲时曾说过，15亿美元是“一个不可以接受的成本”。当时有些公司宣称将一页图书数字化的成本是10美分。假设谷歌花费的成本与这些公司相似，那么将一本300页的图书数字化所需要的费用就是30美元，如果要完成3000万册书的数字化则要耗费9亿美元，很显然这个数字也是令人震惊的。谷歌实际的费用情况可能不会比这个数字低很多，因为作为一项劳动力密集型的工作，该项目已经使用了市场所能提供的最廉价劳动力。按照摩尔定律的算法，放置在一个芯片上的晶体管数量会在一定的间隔期内成倍增加，运算速度的增加导致运算成本的降低，其结果就是谷歌的数据中心每18个月左右就能节省一半的费用。但是很显然，摩尔定律并不适用于人工手翻页码的速度和成本测算。同样地，图书数字化也不可能受益于规模效应，因为

返回目录上一页下一页回到顶部赞（1）踩（1）

第17章

星球Google:我们的生活将怎样被一家公司彻底改变-第17章

你可能喜欢的