星球Google:我们的生活将怎样被一家公司彻底改变-第14章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
业务方面,谷歌也在慢慢地用免费的在线服务进行蚕食,与微软的Outlook、Word、Excel及相关软件直接竞争。微软不缺少现金——2007年9月,它从手指缝里就流掉了210亿美元——但是这笔钱却不能为它买来能够有效地与谷歌的多面出击相抗衡的条理清晰的策略。至于斯蒂夫·贝尔科维茨这位被任命为微软在线服务集团资深副总裁并有责任将新思想带入该集团的外来者,他的任期也并不长,进入微软尚不满两年,就从这个位置上离开了。
独步天下的谷歌算法(7)
谷歌对算法的信赖不仅给了竞争者们有力的一击,并且取得了品牌合并所带来的额外收益。它的名称成了上网搜索的同义词——googling现已成为通用名词。公司现在已经与高级搜索密不可分,就连声称自己的搜索能力比雅虎和微软都更加令人印象深刻的Ask公司,也试图标榜自己拥有的是可以和谷歌相匹敌的、自己的算法。
Ask公司企图通过提供最纯粹的算法赢得市场份额,2007年春,公司发起了“滚石算法”(The Algorithm Rocks)的广告攻势。电视广告、户外广告牌和印刷广告铺天盖地,皆旨在对公众进行“教育”,以使每个人都懂得“并非所有的搜索引擎都一样,重要的是它们所使用的算法”。在网站,Ask对“算法的历史”做了漫不经心的、带有喜剧意味的长篇讲解(“罗伯特·弗罗斯特(Robert Frost)从未写过算法,这真是件好事”)。深藏不露的是一个秘密演讲,说的是关于Ask的算法是如何与谷歌的算法同时研制成功的,但所遵循的技术路线不同,它是用另外两个公司——Teoma和Direct Hit——开发的技术和并而成的。
Ask的广告代理Crispin;Porter+Bogusky公司的首席创意官亚历克斯·博古斯基(Alex Bogusky)在运动发起时解释道,算法是一个“有趣的词,大部分人——如果不是所有的人——平时都没听说过”。Ask计划展开为期一年的广告宣传战役,目的就是要“让这个词在消费者的日常生活扎下根来”。但令Ask公司及其广告代理感到遗憾的是,这个词早在广告战役开始之前就得到了广泛的传播,同谷歌密不可分了。在广告攻势开展三个月后,国内围绕谷歌开展的一项调查的结果显示,一般公众在看到Ask的广告词“我们就是算法”时,总会把“我们”当成谷歌。
纯算法的方法在搜索引擎业界的专业观察员中引起了广泛的批评。《波音-波音》(Boeing…Boeing)的科利·多克托罗(Cory Doctorow)认为,给网页评级的算法“包###这个软件的编程人员的偏见、希望、信任和猜测”。蒂姆·奥赖利(Tim O’Reilly)2008年指出,人类在了解了算法如何运作之后,便将这个系统当成了游戏,设计出在网页评级中能获得高级评价的商业###网页,并在搜索结果中占据最顶级的位置。他说,聪明的用户知道应继续浏览到搜索结果的第二页,以避免被占据第一页显著位置的垃圾结果所干扰。
在公司起步阶段,谷歌的创办者们就已坚信,算法,唯有算法才可以决定搜索结果。这个方法在2004年受到了严峻的挑战,当时用户们注意到,当输入搜索词Jew时,一个反犹太人的网站就会出现在谷歌搜索结果的顶端。谢尔盖·布林和拉里·佩奇一样,都是犹太人,他们收到了来自朋友们的许多电子邮件,要求他进行人工干预。布林说,他也对这个网站十分反感,“但是排名的客观###是我们的一项重要原则。我们不要让个人的观点——无论是宗教的、政治的、种族的还是别的——影响我们的结果”。
从那时起,谷歌的创建者们对于政治问题的敏感有所增加,他们用人工手法降低了反犹太人网站的级别。但公司一直坚持认为,摒除人类偏见的唯一办法是把最终的发言权交给算法。谷歌的研究部主任彼得·诺维奇(peter Norvig)在2006年重申了这一点:谷歌能够禁得住###不去理会个别人的埋怨,拒绝对搜索结果的顺序作小的调整,那是“因为我们认为这里一旦开个口子,后面的漏洞就会越来越大”。
独步天下的谷歌算法(8)
尽管如此,如果遇到非人工因素引起的算法方面少量的简单错误时,谷歌还是允许作一点细微的调整。例如,一个关于“O’Reilly”的搜索结果仅与保守党时事评论员比尔·欧莱利(Bill ’Reilly)相关,把其他可能的结果(如名列“财富500强”的O’Reilly汽车部件公司)都排除在外。谷歌承认这是个问题,但这是由特殊情况造成的,对算法的等级排名来说是个例外。经过调整后,关于“O’Reilly”的索引结果的第一页分为三段,第一段是混杂的O’Reilly链接,第二段是O’Reilly汽车部件公司,第三段是Bill O’Reilly。布林和佩奇懂得,人工介入的调整手段,决不能频繁使用;然而他们也完全承认,人类能够充当质量管理的检察员。谷歌聘用人工评估员对算法经各式微调后所推出的结果的质量进行检查——2007年,谷歌在世界范围内与1万人签订了合同,请他们做质量评估。但他们的反馈只用于对算法本身进行调整,而不涉及单独词语的搜索结果。如果谷歌允许在搜索之后用人工对算法进行复评或对结果进行调整,那么系统必然会慢到无法接受的程度。在谷歌,对规模的追求永远是第一位的,这就要求几乎完全依赖自动化程序(另一个小小的例外是它希望用人工排除那些已经被用户举报为垃圾的链接)。雅虎无法随着Web的增长而扩展由人工编辑的目录,###出依赖人工的系统的局限###。谷歌要避免雅虎的错误,就必须具备与Web同步增长的能力。
谷歌的算法不能顺利地转为Web以外的信息种类,如图书和视频。Web以链接的形式提供了丰富的内部数据,算法可以利用它们来判断它所处理的信息的质量。那么,它能够掌握内部线索不相同的数据吗?谷歌最终需要改变它对公式的依赖而更多地认可人工输入吗?“社会搜索”——即用户对某个网页的关联###和有用###的评价决定该网页在搜索结果中的显示位置——能够处理更广泛的信息分类系列并且比算法做得更好吗?要认识算法模式在新领域的应用潜力及其局限###,只要近距离观察谷歌如何在新项目中扩大其领域,就可以对这个问题有比较正确的理解。
认可度较低的试验始于2002年3月,当时谷歌决定在信息分类、集合、给新闻报道划分等级等方面尝试用算法代替人工编辑。当谷歌的管理层准备引入这项服务时,公司内部对于完全依靠软件来决定哪些报道应该放在谷歌新闻网页的显著位置的做法是否明智有过不同意见。谷歌的产品管理和营销高级副总裁乔纳森·罗森伯格(Jonathan Rosenberg)建议道:“只要分一些编辑去做这项工作,我们的新闻产品在互联网界就会是最好的。”但是拉里·佩奇否决了这项提议,因为“人工方案不具规模”。
当谷歌新闻网站在2002年9月正式推出时,它引用的新闻来源有4000多个。在新闻页面的底端印有一个心血来潮的启事:“本网页在编制过程中无人受到伤害,甚至无人被利用。”在一个针对谷歌新闻提出问题的页面的顶端,公司自己的提问和回答是——问:“谷歌新闻主页的编辑是谁?有一条新闻的标题非常乱。”答:“计算机算法;没有人工介入。”谷歌骄傲地让编辑、责任编辑和执行编辑的位置空着·——决定某条新闻上头条的不是某个人,也没有政治观点或意识形态的因素掺杂在内。谷歌说,和搜索网页的运算规则一样,编辑新闻报道的运算规则“也主要依靠网站出版商的集体判断来确认哪些网站提供了最有价值又最有意义的信息”。谷歌知道,它的算法还存在着一些缺陷,所以只要读者发现了“奇怪的结果”,一个电子邮件就可以让谷歌的工程师知道,不必用人工调整结果,而只需帮助“微调一下算法”即可。
独步天下的谷歌算法(9)
《华盛顿邮报》媒介评论家霍华德·库尔茨(Howard Kurtz)用带有讽刺意味的口吻对谷歌的逻辑依据进行了解读:“谁会需要记者呢?当你可以利用易于被滥用的计算机制作一个称心的新闻网站的时候,谁还会把钱花在爱发牢骚的、以自我为中心的、迷恋401(K)条款 的人身上呢?”严格说来,库尔茨的批评在当时是放错了地方——在网络威胁面前立刻感到饭碗不保的不是记者,而是编辑。但短短几年之后,连整个报纸行业也陷入了可怕的财政困境,“谷歌新闻”应对记者职业的消失负间接的责任。通过将用户直接指向具体的在线新闻文章,“谷歌新闻”及其他同样入侵新闻领域的网站扮演了将报纸订户诱拐到电脑屏幕上读新闻的角色,而且让读者将时间主要花在浏览谷歌新闻网站而不是浏览报纸网络版主页。随着印刷版订户的消失,传统上为新闻采访提供资金的广告商也就消失了。报纸网站上在线广告的增加无法完全弥补其印刷版的亏空,报纸行业的临时解雇现象越来越严重。
算法的确需要微调。有一次,一个公司报纸的发行量不知何故登上了商业新闻网页中新闻特写的顶部。还有一次,谷歌冷酷无情的算法在2003年2月1日犯了一个重大的错误,导致了严重的负面后果:那一天,航天飞机哥伦比亚号在返回途中解体,导致全部7名宇航员死亡。由于没有估准这个事件的重要###,算法当天允许这条消息从新闻网站的主页上一度消失。
其他的反常现象也不时出现。2005年,谷歌对它的公式做了调整并申请将其加入到算法专利中,算法可以考虑更多的因素,如新闻机构编制的特写的平均长度,新闻部门的人员数量,报纸自办网站的访问量,接入这个网站的国家的数量等。结果得到了改善,反常现象(几乎)消失了。(新泽西州的一名15岁高中生在2006年写了一则假新闻,称他已经成为谷歌最年轻的雇员,“谷歌新闻”竟然不辨真伪,也收入了这则新闻。)
在组织新闻的竞争中,谷歌的算法和雅虎的人工新闻编辑进行了对决,然而,谷歌并没有取得胜利。它的算法虽然有所改进,但并不意味着已经赶上了雅虎新闻网站的质量。说“谷歌新闻”是一个劣等网站,并不是因为它偶然有一天表现不佳,算法被指犯下了人工编辑决不会犯的错误;“谷歌新闻”的低劣表现在即使是它最好的日子也从未有过“雅虎新闻”指导新闻选择的精益求精的态度。访客数量上的差异也反映出两家的不同由来已久:在开办4年后,“谷歌新闻”的访问量只及雅虎新闻网站的30%,后者仍是Web中最有人缘的新闻网站。在这种情况下,当算法遭遇人类时,人类获胜。
新闻的###质决定了新闻并不能显示出算法随着数据的增长而自动日益复杂化的真正威力。在网站中,维护人员赋予算法的是一种额外的高明之处:一旦它们在自己的网页中加入在其他网站上发现的新闻网页的链接,就可以对Web网页进行检查。谷歌“蜘蛛”搜集的页面越多,算法所集中的链接就越多,它赖以做出的判断就越具权威###。但具体到新闻,由于算法只能对新闻的组织进行判断,却