百度蜘蛛Baiduspider真假识别如何呢?

之前百度站长平台接到某站长求助,表示误封禁了Baiduspider的IP,询问是否有办法获得Baiduspider的所有IP,打算放入白名单加以保护,防止再次误封。在此百度官方告诉各位站长,Baiduspider的IP池是不断变动的,我们无法提供IP全集。

除此之外,之前还有站长发来质疑说Baiduspider光顾过于频繁,已超越服务器承受能力。而百度站长平台追查发现,Baiduspider对该站点的抓取并无异常,那只spider极有可能是个李鬼。

那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、在mac os平台下,您可以使用dig 命令反解析 ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

百度蜘蛛真假识别方法:

实际上,我们的日志中,有很多的baiduspider是他人伪装的,要想解决这个问题。我们必须在验证baiduspider真伪上下功夫,这篇文章详细的介绍了爬虫的鉴别方法。

我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,实际上很多站点都是有一些伪装成baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。

这些到访者,为什么会伪装为baiduspider来访问我们的网站呢?最典型的就是采集你网站内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次,那正常吗?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。

我们应该如何识别baiduspider的真假呢?

百度pc端的爬虫UA是这样的:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

百度移动端的爬虫UA是这样的:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS x) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

区分百度pc和移动端的爬虫

通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

通过关键词“Baiduspider/2.0”、“Baiduspider-render/2.0”,判断为百度爬虫。

然而,你以为这样就能很好的识别了吗?采集者要是伪装成和上面一样的UA信息怎么办呢?

这个时候我们就要用到ip地址了,每一次访问在日志中都记录了访客的ip地址,我们可以判断ip是不是真的baiduspider,方法如下:

windows电脑反查ip,判断爬虫真伪:

点击“开始”菜单,-> 点击“运行”按钮,-> 然后弹出cmd窗口。输入“nslookup 要查询的ip地址”,点击回车键,会有结果输出出来。判断是否来自Baiduspider的抓取。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式,就说明是真的baiduspider。下面是示例:

如上图中,我执行命令,返回的结果中,最后绿色框中的内容就包含的xx.baidu.com,所以是真的爬虫,如果不是这样的就不是真的baiduspider。

liunx系统反查ip,判断爬虫真伪:

liunx系统验证爬虫的逻辑与windows没有什么区别,只是查询的方式不同。毕竟系统不一样了。这里我直接给一个示例:

如上图,liunx使用的命令是“host 要查询的ip地址”,其判断逻辑与windows系统一样。

(0)

相关推荐

  • scrapy终端常用命令

    scrapy命令行 一.默认的scrapy项目结构 scrapy.cfgmyproject/    __init__.py    items.py    pipelines.py    setting ...

  • 电脑突然不能上网,怎么重置都没用,没想到竟然是TCP/IP出了问题

    最近几天遇到了比较奇葩的状况,电脑正常上网中,等离开房间过一会儿再回来,突然发现网页全部无法打开,一开始以为是浏览器崩溃了,然而换了IE.谷歌浏览器.搜狗浏览器.360浏览器之后均发现是一样的情况,于 ...

  • 百度蜘蛛如何更好的抓取和识别网站

    互联网信息爆发式增长,如何有效的获取并利用这些信息是百度搜索引擎工作中的首要环节.数据抓取系统作为整个搜索系统中的上游,是百度搜索的重点,也是网站优化的重要突破口.Spider从一些重要的种子 URL ...

  • 百度大脑人脸离线识别SDK Windows版

    今天给大家带来是百度大脑人脸离线识别SDK Windows版,人脸离线识别SDK经过不断的升级迭代,目前已支持Windows版,下面我们来看具体详情! 百度大脑人脸离线识别SDK Windows版对多 ...

  • 太子参的真假识别方法

    太子参为石竹科植物孩儿参的干燥块根,又名孩儿参.童参.米参,属常用中药.其味甘.微苦,性平,归脾.肺经,具有益气健脾,生津润肺的功效,主要用于脾虚体倦.食欲不振.病后虚弱.气阴不足.自汗口渴.肺燥干咳 ...

  • 网站内容SEO如何做才能让百度蜘蛛快速抓取收录呢?

    我们做SEO的都知道,网站关键词要想有好的排名,收录是前提基础,如果一个网站的页面都没收录几个,更别谈百度会给予它什么好的排名.大家做新站的时候,前期都非常关注网站内容被收录的问题,如何做才能让百度蜘 ...

  • 手机百度网盘怎么识别图片上的文字?

    想要识别并且提取手机本地图片上的文字?那么打开手机百度网盘就行,下面就是具体的操作流程! 打开百度网盘APP以后,在首页面找到"相册",然后就能看到所有备份到网盘上的图片和照片了, ...

  • 百度蜘蛛抓取频次一直很低什么原因?提高抓取频次几个有效方法

    很多站长或网站开发者在做网站优化的时候,网站存在不收录或者收录少的原因,尤其是新站,这种情况很常见,那么我们从百度蜘蛛抓取这个层面来分析一下. 我们都知道搜索引擎对于网站收录的前提条件是百度蜘蛛的抓取 ...

  • 百度蜘蛛封禁2周,排名与索引丢失,怎么恢复?

    在做SEO的过程中,我们总是会遭遇各种问题,特别是服务器故障的问题,错误的导致百度蜘蛛被封禁,网站2-3周不能得到有效的访问. 导致网站出现如下情况: ①百度不收录 ②页面索引消失 ③关键词排名开始逐 ...

  • SEO排名,提升百度蜘蛛抓取频次,有利于排名吗?

    这一段时间,关于百度收录的问题,总是在SEO你问我答群里产生热议,很长一段时间,大量的站长都在反馈相关问题,其中这难免涉及到一些基础性的问题,比如:页面抓取频次. 大量的SEO从业者都认为页面抓取频次 ...

  • 百度蜘蛛,抓取诊断失败的原因有哪些?

    对于SEO人员,经常会使用百度官方工具,审查站点,查看网站各项指标是否符合预期,其中"抓取诊断"是站长经常使用的一款工具,很多站长表示,在使用网站"抓取诊断"的 ...