浅析,百度搜索团队,网站抓取建设指南!

网站不收录,可能是最近,大量SEO从业者都在讨论的一件事情,这里面不乏更多的大型行业网站,这也是为什么我们要定期解读百度官方相关公开视频的一个重要原因。

每隔一定时间周期,百度搜索资源平台,都会定期开放相关课程,我们可以清晰的看出,官方搜索团队,也在不断的由浅入深的为大家分享日常建站的相关内容。

虽然,本期内容网站抓取建设更多的在陈述一些基础性的内容,但仍然有很多细节值得我们关注。

https://www.batmanit.com/p/1538.html

那么,百度官方网站抓取建设课程,有哪些值得关注?

根据以往针对百度蜘蛛的研究,蝙蝠侠IT,将通过如下内容阐述:

1、百度爬虫工作原理

本节内容基于搜索引擎的工作原理,百度搜索团队讲述了搜索爬虫一个基础性的抓取流程与策略,如下图:

通常来讲搜索爬虫:

①优先抓取网站的首页元素。

②提取页面所有的链接,并且分析页面质量,页面主题内容被记录相关元素,反应在搜索结果中,而页面中的链接,会进一步的进行二次抓取。

③基于整站URL地址的提取,根据搜索策略,进行二次筛选,选择有价值的目标链接,进行再次抓取,反复循环操作,以最大限度的抓取整站有价值的页面。

其中值得说明的一个过程就是:

在反馈给搜索页面的时候,在这个过程中,搜索引擎是需要对网站的结构,网站的类型,网站的主题相关性进行识别。

因此,我们在建立新网站的时候,当我们试图提交给百度搜索时,我们需要确保:

①网站结构完整,简洁,具有较高的逻辑相关性。

②网站首页内容丰富,最好具有明显的时间标识。

2、如何确保网站正常抓取

根据百度搜索团队的课程,我们认为,主要包括如下几点因素:

① 网站URL规范化

所谓的URL规范化,通常来讲,主要就是指我们常见的一些URL基础性形态,一般来讲,我们通常建议大家选择伪静态的形式,一般可以是.html结尾。

常见的URL层级理论上越简单越好,比如:domain/mulu/123*.html

在这个过程中,我们尽量确保URL路径不要过长,尽量不要超过100个字符为最佳。

同时避免采用不友好的URL形态,比如:中文字符嵌入的形态,如下图:

当然,这里面需要强调的就是一个参数的问题,很多网站经常会有一些广告代码追踪,亦或是访问统计的后缀标识,这对于搜索引擎来讲,虽然是相同内容,但经常会自动添加不同的来路URL地址标识,很容易被识别成重复性内容。

官方建议在使用统计数据的时候,尽量规范化标识,适当采用“?”等相关的形式。

但根据实战经验来讲,合理的使用“?”同样会造成大量恶意的理由,比如:

domain/mulu/?123*.html?【URL地址】

因此,我们建议,如果非必须启用相关的动态参数,我们尽量在robots.txt中屏蔽“?”。

② 合理发现链路

什么是链路?

简单的理解:所谓的链路就是从目标索引页,所展现的相关性页面超链接,搜索爬虫基于这些链接,可以更好的,更全面的抓取整站的页面内容。

一般来讲:一个网站的索引页面,主要包括:首页、列表页、Tag标签聚合页面。

这些类型的页面,每天都会进行大量的页面内容更新与调用。

也就是说,随着不断的运营,这些页面就像是一个种子页面,在固定周期内,每天特定时间吸引搜索引擎不断的来访抓取最新页面。

而一个良好的索引页,通常需要具备,定期更新的策略,最新的内容与文章,一般建议采用最新时间排序的策略进行展现。

这样可以辅助搜索引擎更快的发现新内容。

这里面值得强调的一个细节就是,我们新发布的内容,最好是实时同步在索引页面,这里一些需要静态手动更新,亦或是采用CDN加速的页面经常会遇到相关问题。

同时,官方建议,我们尽量不要建立大量的索引页面,这里我们给到的理解就是:

基于更新频率的策略,我们只需要保持核心索引页可以频繁的保持更新频率即可,如果大量启用不同的索引页面,而没有进行有效的内容展现,也是一种抓取资源的浪费。

③ 访问友好性

通常来讲,所谓的网站访问友好性,主要是指:

1)页面的访问速度,尽量控制在2秒以内。个人觉得可以合理启用百度CDN云加速。

2)确保DNS解析的稳定性,一般我们建议大家选择主流的DNS服务商。

3)避免页面产生大量的跳转,比如:索引页展现的链接,大量启用301,302,404类型页面。

4)避免只用技术手段,亦或是错误的操作策略封禁百度爬虫。

5)避免错误的使用防火墙,导致百度不能友好的抓取目标页面,特别是在购买一些虚拟主机的时候,需要格外注意。

6)注意网站的负载压力,比如:高质量站点,短期大量更新内容,导致同一时间节点,大量的蜘蛛访问,造成服务器加载延迟甚至卡顿的情况。

④ 提高抓取频率

我们知道想要试图提高网站的收录率,抓取频率的提升显得格外重要,通常来讲:

新站:搜索引擎更多的是在乎页面内容质量度的覆盖率。

老站:更多的是体现在页面的更新频率上。

这里面值得注意的就是:

对于企业新站而言,搜索引擎会在1-2个月的时间周期中,给予一定的流量倾斜与扶植,因此,在这个过程中,我们需要尽可能的提升内容输出质量。

从而获得较高的质量评估,这样在后期的运营过程中,才能够获得更好的展现。

一般新站上线,长期不收录的原因,主要可能是因为:内容质量不佳,内容增量覆盖行业的广度不够,为此,我们尽量避免采用伪原创和采集内容。

3、常见问题解答

① 资源提交是越多越好吗?

答:早期蝙蝠侠IT就强调,我们在使用相关数据提交渠道的时候,尽量选择优质内容提交,而尽量减少低质量页面的数据提交,如果这些页面的比例大幅度增加,很容易影响站点质量的评估。

② 普通页面提交就会收录吗?

答:链接提交给百度搜索资源平台,还需要一定时间周期的去响应排序与抓取,并不是说提交了就一定会在短期内抓取,根据不同网站的状态,一般普通收录,可能出现隔天收录的情况。

③ 外网服务器的抓取有区别对待吗?

答:基于外网的服务器存在一定服务器稳定性的因素,以及网站ICP备案识别的情况,理论上抓取策略是存在一定区别的。

④ 新站用老域名的话,是否更有优势?

答:如果老域名选择的目标网站与旧网站内容是相关性的,在初期运营阶段是存在一定帮助的,如果内容不相关,并且这个域名历史记录,出现大量不同类型的建站记录,往往可能会事的而反。

⑤ 网站蜘蛛是否有降权的蜘蛛?

答:百度蜘蛛IP段,并没有降权或者高权重一说。

⑥ 新网站不收录的主要因素有哪些?

答:企业新站如果发布的大量内容与搜索结果中现有的内容高度同质化,我们可能会降低抓取频率,甚至不收录。

总结:本次百度官方公布的网站抓取建设内容,相对详尽,基本解决站长日常的常见问题,上述内容,我们认为最为值得注意的细节就是URL的长度不要超过200字符,以及页面加载速度控制在2秒内,仅供参考。

(0)

相关推荐

  • 百度搜索算法权威性与时效性解读课程笔记(二)

    本期主要内容搜索权威性与时效性解读 1.权威性的作用 对百度而言 :提供给用户可信赖的权威结果,提高用户对百度的信任感,增加用户搜索黏性. 对于资源方而言:生产权威可信的结果,可增加曝光度,带来更多的 ...

  • 百度站长SEO问题答疑:网站抓取建设指南

    百度站长SEO问题答疑:网站抓取建设指南

  • 浅析:百度搜索团队,官方问答42个SEO知识点!

    在做百度SEO的过程中,我们总是会遇到各种问题,实际上,针对一些有相关性的问题,如果你是刚入门的SEO新人,我们有很多问题的答案,都处于模糊边缘. 而实际上,解决这类问题的最便捷方法就是时刻的关注百度 ...

  • 百度不收录,如何提高网站抓取频率?

    我们知道排名的前提是收录,因此我们只有不断的提高百度抓取频率,才能够确保获取更高的收录率,这也是解决新站收录难的一个途径. 网站不收录,该如何进行SEO诊断? 通常对于网站而言,百度不收录主要有如下原 ...

  • 网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取

    在日常网站优化中如果想要网站拥有良好的网站排名,就要针对搜索引擎的抓取习惯培养友好度和信任度,网站在运营优化中难免会发生因为一些细节问题影响蜘蛛爬虫对网站正常抓取,那么究竟哪些操作设置会影响蜘蛛爬虫对 ...

  • 网站收录抓取都很正常,搜索标题却没有排名算降权吗?

    昨天一个做推广朋友和平哥SEO优化交流了一个比较经典的问题,他说他的网站排名都掉了很长时间了,100%肯定是命中了惊雷算法(快排作弊,为什么这么肯定,因为他的网站是用过快排软件不到一周左右就出现排名直 ...

  • 网站内容SEO如何做才能让百度蜘蛛快速抓取收录呢?

    我们做SEO的都知道,网站关键词要想有好的排名,收录是前提基础,如果一个网站的页面都没收录几个,更别谈百度会给予它什么好的排名.大家做新站的时候,前期都非常关注网站内容被收录的问题,如何做才能让百度蜘 ...

  • 百度蜘蛛如何更好的抓取和识别网站

    互联网信息爆发式增长,如何有效的获取并利用这些信息是百度搜索引擎工作中的首要环节.数据抓取系统作为整个搜索系统中的上游,是百度搜索的重点,也是网站优化的重要突破口.Spider从一些重要的种子 URL ...

  • 网站推广收录少?网站推广专员浅析可能是蜘蛛抓取出现问题

    从事过网站优化相关工作的人士都了解,企业网站想要在搜索引擎中获取良好的排名,没有充足的收录量作为基础很难实现.在网站优化期间,网站收录量有太多可影响因素,那么针对收录量偏低的网站来说,如果是搜索引擎蜘 ...

  • 浅析,百度搜索1v1诊站的相关回复!

    自从从新开始进入SEO行业以来,就一直在关注百度搜索相关的动态,也一直以来建议百度搜索团队官方尽量将SEO问题回流到百度社区,更好的服务开发者与站长,培养优秀的运营人才更好的服务企业,打造良好的生态圈 ...