用了二十多年了,Google终于开始推进这个互联网基石之一的协议标准化
Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生,但是一定有很多人听过robots.txt这个文件,robos.txt这个文件存在于几乎所有网站的根目录下,它规定了网络爬虫可以爬取的目录地址,但它一直都不是一个标准的文件。
25年前,Martijn Koster,这位互联网最早的搜索引擎创始人,在他的网站被爬虫频繁光顾到无法访问之后,编写了这个文件,制定了一个叫做机器人例外的协议(Robots Exclusion Protocol),在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一,搜索引擎的爬虫通过分析这个文件了解网站所有者的规定,更规范地来爬取网站内容。
然而至今为止,这个协议都只是一个非官方、非标准化的协议,robots.txt的内容怎么写完全是随网站管理者的性子来,这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库,没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情,往往会因为内容太复杂太多而解析失败,致使爬虫没能遵守该网站的规定爬取了敏感信息,发生各种信息泄露事件,影响到网站的正常运行与安全。
而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁,它没有改变从1994年以来规定的条条框框,但是更清晰地描述了爬虫可能会遇到的场景,并使协议更为现代化。Google表示,目前的草案已经接近向IETF组织提交,但是还需要一些改进。毫无疑问,这是对互联网总体有利的一件好事,未来在标准化之后的REP协议加持下,我们可能可以获得更好的搜索结果。
赞 (0)