“只有谷歌才能搜到的网页”:搜索引擎的强大力量

神译局

 · 17小时前

关注
网站和搜索引擎是共生的。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:使用不同的搜索引擎搜索出来的内容是不一样的,用哪个搜索引擎搜出来的东西又多又好,在客户一端,当然就会倾向于一直用这个搜索引擎。而在网站一端,网站的拥有者也会选择允许用户规模大的搜索引擎来爬取自己的网页,所以有些网站只有用Google才能搜到。网站和搜索引擎是共生的。网站的流量依赖于搜索引擎,而搜索引擎需要访问网站,为用户提供相关的结果。这是一个正反馈循环,其结果就是,谷歌搜索引擎越来越强大,在国外只有微软的必应能够稍微与之较量一下。但其背后是存在问题的,谷歌搜索引擎的权力太大,它能决定你能搜到什么,这种权利应该得到监管和限制。本文经授权译自New York Times,作者Daisuke Wakabayashi,原标题为" Google Dominates Thanks to an Unrivaled View of the Web",希望对您有所启发。

2000年,谷歌成立仅两年后,就达到了一个里程碑,为其在未来20年的主导地位奠定了基础:它成为了世界上最大的搜索引擎,拥有超过10亿个网页索引。随着时间推移,谷歌的网页索引变得越来越庞大。如今,据估计,谷歌可以检索到大约有5000亿到6000亿个网页。

现在,世界各地的监管机构都在研究如何遏制谷歌的权力,包括预计将由多州总检察长提起的搜索垄断案,以及司法部在10月份提起的反垄断诉讼。这些监管部门正在与一家科技巨头对阵,谷歌的规模已经完全压制了竞争对手。在反击中,这些竞争对手正将调查人员的焦点引向了谷歌搜索庞大的索引。

2020年10月20日,位于加州山景城的谷歌总部。谷歌相对于竞争对手的搜索引擎有巨大的优势,因为它的受欢迎程度不断增加,它了解消费者想要什么。(劳拉·莫顿/《纽约时报》)

大约20年前创办搜索引擎Gigablast马特·威尔斯(Matt Wells)说:“如果人们使用索引较小的搜索引擎,他们不会总是得到想要的结果,然后他们就会去谷歌,并成为忠实用户。像我这样的小公司,大约可以检索50亿个网页,根本无法与谷歌竞争。”

了解谷歌的搜索是如何运作的,是弄清楚为何这么多公司发现几乎无法与之竞争的关键。事实上,他们会不遗余力地迎合谷歌的需求。

每次搜索请求都会为谷歌提供更多数据,使其搜索算法更加智能化。谷歌的搜索量比其他任何搜索引擎都要多,因此在了解消费者需求方面,它比竞争对手有更大的优势。这一领先优势只会继续扩大,因为谷歌拥有约90%的市场份额。

谷歌将数十亿用户引导到互联网上的各个网页,而渴望获得流量的网站则为该公司创造了一套不同的规则。网站经常提供对谷歌所谓的“网络爬虫”(自动搜索互联网并扫描网页的计算机)的更大、更频繁的访问支持,使该公司能够提供关于互联网上可用内容的更广泛、更新的索引。

在音乐网站工作时,软件工程师扎克·马里尔(Zack Maril)开始担心谷歌的主导地位会对网站造成什么影响。2018年,当谷歌表示其爬虫程序Googlebot在的一个页面上出现问题时,马里尔马上把解决这个问题作为当务之急,因为谷歌对该网站的流量至关重要。当其他爬虫遇到问题时,BandCamp通常会阻止它们。

马里尔(Maril)继续研究网站为谷歌打开大门和为其他人关闭大门的不同方式。去年,他向众议院反垄断小组委员会递交了一份20页的报告《理解谷歌》(Understanding Google),然后与调查人员会面,解释为什么其他公司不能重建谷歌索引。

29岁的马里尔(Maril)就职于另一家不直接与谷歌竞争的科技公司,他说:“这在很大程度上是其垄断地位不受约束的权力来源。”他要求《纽约时报》不要透露他的雇主的身份,因为他的立场不代表公司。

软件工程师扎克·马里尔,于2020年11月13日摄于华盛顿。(贾里德·苏亚雷斯/《纽约时报》)

美国众议院小组委员会今年的一份报告引用了马里尔对谷歌的研究,他详细阐述了谷歌创建互联网实时地图的努力以及如何“锁定其主导地位”。虽然美国司法部正在寻求解除谷歌的商业交易,这些交易将谷歌的搜索引擎置于数十亿部智能手机和电脑的前沿,但马里尔敦促政府干预和监管谷歌的索引。谷歌发言人拒绝置评。

网站和搜索引擎是共生的。网站的流量依赖于搜索引擎,而搜索引擎需要访问网站,为用户提供相关的结果。但是,每一个爬虫都会对网站的服务器资源和带宽成本造成压力,一些侵略性的爬虫甚至可以使网站瘫痪。

由于抓取网页是要花钱的,网站更希望只让有足够流量的搜索引擎来做这件事。在目前的搜索领域,这就剩下了谷歌。在某些情况下,还有微软的必应。

谷歌和微软是仅有的两家每年花费数亿美元来维护英文互联网实时地图的搜索引擎。此外,根据英国竞争与市场管理局今年夏天的一份报告称,这两家公司多年来还花费了数十亿美元来建立自己的索引。

谷歌在市场份额上远远领先于微软。英国竞争主管部门表示,谷歌的索引包含约5,000亿至6,000亿个网页,而微软的索引包含1,000亿至2,000亿个网页。

其他大型科技公司也会为其他目的部署爬虫程序。比如,Facebook有一个爬虫程序,可以抓取出现在其网站或服务上的链接。亚马逊表示,它的爬虫程序有助于改进语音助手Alexa。苹果也有自己的爬虫程序Applebot,这引发了人们的猜测,认为苹果可能正在寻求建立自己的搜索引擎。

但对财力不雄厚的公司来说,建立索引一直是一项挑战。十多年前,注重保护用户隐私的搜索引擎DuckDuckGo决定停止在整个网络上检索,现在从微软那里获取搜索结果。DuckDuckGo仍然会检索维基百科等网站,为答案框提供结果,但维持自己的索引通常对公司来说没有经济意义。

加布里埃尔·温伯格(Gabriel Weinberg),宾夕法尼亚州Paoli DuckDuckGo搜索引擎公司的首席执行官。2019年7月7日。十多年前,这个注重隐私的搜索引擎决定停止在整个网络上执行爬虫程序,现在将来自微软的搜索结果整合在一起。(米歇尔·古斯塔夫森/纽约时报)

DuckDuckGo首席执行官加布里埃尔·温伯格(Gabriel Weinberg)表示:“它的成本超出了我们的承受能力。”在去年提交给众议院反垄断小组委员会的一份书面声明中,该公司表示,“如今,以及在可预见的未来,一家有抱负的搜索引擎初创公司不可避免地要向微软或谷歌寻求搜索结果。”

2015年,当FindX开始开发谷歌的替代品时,这家丹麦公司开始创建自己的索引,并提供了一种可以提供个性化结果的算法。

不过,FindX很快就遇到了问题。Yelp和LinkedIn等大型网站运营商不允许这个羽翼未丰的搜索引擎抓取他们的网站。由于代码中的一个漏洞,FindX在互联网上检索的计算机被标记为存在安全风险,并被许多基础设施提供商屏蔽。他们收集的网页经常是垃圾网页或恶意网页。

FindX于2018年关闭,其联合创始人布莱恩·斯乔特·劳尔森(Brian Sschilt Laursen)说:“建立索引是最难做的事情。”劳尔森去年推出了新的搜索引擎Givero,用户可以选择将公司收入的一部分捐给慈善事业。当他创办Givero时,整合了微软的搜索结果。

大多数大型网站对于谁可以抓取他们的页面都很谨慎。总的来说,谷歌和微软获得更多的访问权限是因为它们拥有更多的用户,而较小的搜索引擎则需要申请许可。

德国搜索引擎Cliqz联席首席执行官马克·哈姆斯(Marc Al-Hames)说:“你需要流量来说服网站允许你复制和检索其网页,但你也需要内容来扩大你的索引并拉动流量。”在运营了七年之后,Cliqz于今年关闭。“这是一个先有鸡还是先有蛋的问题。”

在欧洲,一个名为开放搜索基金会(Open Search Foundation)的组织提出了一项计划,要创建一个共同的互联网索引,为许多欧洲搜索引擎提供支持。该组织的主席和创始人斯特凡·福格特(Stefan Voigt)说,提供多样化的搜索结果选项非常重要,因为只有少数几家公司才能决定用户显示和不显示哪些链接。

福格特说:“我们不能把这个问题的决定权交给一两家公司。”

Science Direct是一个同行评议论文的网站,只允许谷歌的爬虫访问包含PDF文档的链接。只有谷歌的电脑才能访问PBS Kids上的列表。在中国电子商务巨头阿里巴巴(Alibaba)的美国网站Alibaba.com上,只有谷歌的爬虫才能访问列出产品的页面。

今年,马里尔(Maril)创办了一个组织,名为“傻瓜俱乐部”(“因为只有傻瓜才会挑战谷歌”),还创建了一个网站,以提高人们对谷歌网络爬行垄断地位的认识。

马里尔(Maril)说:“谷歌在社会上拥有强大的力量,但是我认为应该对这种权力加以控制。”

译者:Jane

推荐阅读:普通投资者积累财富,最简单的方法就是“长期持有”

(0)

相关推荐