用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

2024-08-06 15:04:06

Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生，但是一定有很多人听过robots.txt这个文件，robos.txt这个文件存在于几乎所有网站的根目录下，它规定了网络爬虫可以爬取的目录地址，但它一直都不是一个标准的文件。

25年前，Martijn Koster，这位互联网最早的搜索引擎创始人，在他的网站被爬虫频繁光顾到无法访问之后，编写了这个文件，制定了一个叫做机器人例外的协议（Robots Exclusion Protocol），在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一，搜索引擎的爬虫通过分析这个文件了解网站所有者的规定，更规范地来爬取网站内容。

然而至今为止，这个协议都只是一个非官方、非标准化的协议，robots.txt的内容怎么写完全是随网站管理者的性子来，这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库，没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情，往往会因为内容太复杂太多而解析失败，致使爬虫没能遵守该网站的规定爬取了敏感信息，发生各种信息泄露事件，影响到网站的正常运行与安全。

而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁，它没有改变从1994年以来规定的条条框框，但是更清晰地描述了爬虫可能会遇到的场景，并使协议更为现代化。Google表示，目前的草案已经接近向IETF组织提交，但是还需要一些改进。毫无疑问，这是对互联网总体有利的一件好事，未来在标准化之后的REP协议加持下，我们可能可以获得更好的搜索结果。

公众号可被搜索引擎抓取，微信或将更加“互联互通”

微信公众号的内容只能在微信中看,这可以说早在多年前就已经成为用户的共识.不过最近有消息显示,微信公众号的内容可以被谷歌和必应等搜索引擎搜索到,难道这意味着微信公众号要冲出国门,走向世界? 但腾讯方面很 ...
robots.txt文件写法

表白:黑白圣堂血天使,天剑鬼刀阿修罗. 讲解对象:/robots.txt文件写法作者:融水公子 rsgz 搜索引擎教程搜索引擎教程 http://www.rsgz.top/post/391.ht ...
抓取数据可能会吃官司？请看好你家的爬虫！

如果您不方面阅读文章,可收听通过人工智能技术自动生成的语音.此语音技术由百度广播开放平台(内测)提供,欢迎将收听后的意见反馈给我. 历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取.使用微博 ...
网络爬虫无处不在，侵权边界在哪？

刚和朋友聊天提起某款商品,打开购物App后,首页随即出现同类产品的推送广告:家人商量打算去某地旅游后,某旅游App马上"奉上"该地最佳旅游攻略-- 如今,很多人都有类似这样的经历, ...
百度的好日子来了？

且不说后两者,我一直觉得公众号才是那个撑起微信生态的顶梁柱,但众所周知,公众号作为微信的禁脔,上面的信息除了那个已成自家兄弟的搜狗外,是任何一个搜索引擎都不可察的存在. 这并不奇怪,搜索引擎作为旧时代 ...
常州SEO姜东：搜索引擎的工作原理抓取、索引和排名-搜索引擎如何工作

搜索引擎的工作原理:抓取.索引和排名首先,出现. 正如我们在第 1 章中中提到的,搜索引擎是应答机.它们的存在是为了发现.理解和组织互联网内容,以便为搜索者提出的问题提供最相关的结果. 为了出现在搜 ...
Python网络爬虫相关基础概念！

网络爬虫是Python应用领域之一,也是很多学生比较关注的问题,今天就为大家介绍一下Python网络爬虫相关基础概念. 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够 ...
腿痒痒到骨头里，忍了二十多年的我终于崩溃了

2020年真是魔幻的一年.除了让全球动荡不安的新冠肺炎,我也终于知晓了一个困扰我二十多年的真相,并经历了人生中的第一次手术. 这痒,一忍就是二十多年一切要从两个月前说起. 五月上旬,我开始出现睡眠困 ...
【灵璧救助】流浪二十多年，游集镇这位李先生终于回来了。您还记得他吗？

友情播发一条寻物启事:昨晚21点左右,在灵璧县罗河西路金水湾洗浴中心附近丢失一个钱包,钱包内有身份证.医保卡及几张银行卡,身份证户名:刘军.有捡到的朋友请及时拨打13956888899,与失主联系,失 ...
十多年的鼻窦炎终于治愈

鼻炎.鼻窦炎一类的病,西医是没法治疗的,他们认为问题出在鼻子,其实从中医的角度,多数问题出在脾胃,当然也有问题出在肝肾的. 2020年11月12日,南方还很暖和,一位53岁的男性患者求诊,自述鼻窦炎1 ...
二十多年头痛、口唇周围起干皮奇痒、眼花奇...

二十多年头痛.口唇周围起干皮奇痒.眼花奇痒怕见阳光.面颊和手掌通红,从上小学时开始经常头痛,发作时躺歪倒在路边--每一个疑难症的治疗就是一个传奇. 那些中医黑.认为本医是在做广告或靠赚流量混饭吃的趁早 ...
命运好差真的天注定？资深命理师二十多年算命感悟，值得收藏！

泽海从事算命数十余年,分享下自己的感悟,希望对大家有所启发.祸福同根,吉凶同门,自古天道,吞恨者多,世事如水上泛舟,顺逆皆身不由己.命运极好,人生得意,一帆风顺,如履平途,和穷愁坎壈,命途多舛,遍地荆 ...
算命二十多年，资深命理师感悟到的人生真谛！值得收藏

一命二运三风水四积阴德五读书,泽海从事算命几十余年,总结下命理感悟: 一,每个人都希望自己人生是光明的,但每个人都是在走夜路.对于不懂命理的人来说,完全是靠运势.运势好了走得顺畅,运势不好就摔跟头,然 ...
一个人的命运轨迹能算准？二十多年算命经验的命理师告诉你答案

泽海从事算命二十余年,命理跟心理,很多地方是相通的,特别是在性格倾向,处事风格,婚姻危机处理等这些偏主观性的方面,命局是有某些强烈信息的.说感受到一个人的大致命运趋向,"感受"一词 ...
命运真的存在吗？算命二十多年的命理师告诉你答案，值得收藏！

大千世界,芸芸众生,上至达官贵人,庙堂显贵,皇亲国戚,下至凡夫俗子,无名小卒,贩夫走卒,皆有命运.一贵一贱,一盛一衰,一丰一耗,一贤一愚,一善一恶,一福一祸,一寿一夭,一生一死,死生有命,富贵在天,人 ...
八字算命如何入门？资深命理师二十多年经验倾囊相授，值得收藏！

泽海从事算命二十余年,仅从我个人来谈下学习命理的经验,欢迎各位多多指点. 命理的学习和任何一门科目在本质上都是一样的,即通过科目的核心经典+各流派的文献及笔记,再结合自己的思想归纳及统一,并在运用中, ...

用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

相关推荐