简述Spider再次抓取更新的策略

  • A+
所属分类:SEO入门

Spider再次抓取更新

在我们给网站做SEO优化工作的过程中,无论采用什么方法、策略去执行这一工作,大多网站其最终目的之一都是为了增加收录与索引,以期来给网站获得更多的自然流量。很多SEO的朋友也是为了网站优化而使出浑身解数,以期达到了理想的优化目标,使网站有着不错的收录量以及索引量,相信在努力过一段时间后,许多SEO朋友都会完成目标的十之八九。

查看网站数据是我们SEO工作者的日常工作,而在这以richnag工作过程中,很多朋友可能会产生这样的疑问:网站的收录量和索引量出现一定数量的下滑(可能是少量,也可能是大量的),即原先被收录、索引的网页没有了收录及相关排名,且在观察了一段时间后,数据并没有恢复,即排除了百度官方数据波动的原因。那这是什么原因呢?

当然,还有一些善于观察的朋友会发现一些网站或者页面可能数年都没有更新,其首页第一的宝座却纹丝不动,这又是什么原因呢?

这里可能就涉及到Spider再次抓取更新策略的问题了。

Spider之抓取策略一文中,我们已经了解到Spider抓取的基本原理,并对Spider抓取的策略有过简略的概述,大致意思如下:Spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着Spider针对该网页的工作已经结束了,对网页继续保持规律的抓取和更新也是其工作之一。现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除,从而出现404的状态。

我们可以做如下理解:我们在搜索引擎所看到的页面快照,可以看做是Spider对我们网页进行抓取、索引过后做了一个镜像,也就是说理论上搜索引擎应该保证本地“镜像”页面和对应互联网上的网页内容实时一致。但是由于搜索引擎的Spider资源有限,现阶段做不到其实也没有必要做到实时监测全部已索引网页的所有变化。搜索引擎只需要为Spider设置一个再次抓驭和更新页面的策略,以保证当部分页面呈现到用户面前时,搜索引擎的本地索引和该网页当时的内容并没有太大的差异就可以了,这部分页面应该包含了大部分网民所需要检索的内容,且能够同时满足绝大多数搜索用户的搜索请求。

其实与Spider进行首次抓取一样,在有限资源的情况下,搜索引擎会首先要保证部分网页索引的更新,这部分网页拥有大部分用户所需要的内容;同时也会保证所有索引页面都有一个更新机制,在该网页需要相应的新的内容索引时,Spider要进行再次抓取并更新该网页索引。站在Spider的角度,一般会根据以下四个方面来确定对已索引网页的再次抓取频率:用户体验、历史更新频率、网页类型和网页权重。

1.用户体验

搜索引擎是建立在用户的基础上的。整个互联网的网页数量是巨大的,已被搜索引擎抓取并索引的网页应该也是千亿级别的了,但是用户所需要的信息只有一小部分。当用户在搜索引擎提交查询需求后,不论返回结果有多少,大部分用户都只会在前三页找到自己所需要的信息,很少有用户会去浏览第三页之后或者更后面的网页。本着用户体验度优先的原则,能够满足所有用户提交查询结果的前几页网页,都是值得保证索引及时更新的。所以一般搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户体验度最好的网页,继而进行优先再次抓取和更新。理论上,可以被搜索到次数越多的网页,再次被抓取的频率就会越高。

2.历史更新频率

Spider对网页的再次抓取是规律的。搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,可能搜索引擎就会降低对其抓取的频率,甚至不再对其进行再次抓取。这个策略的实施是建立在搜索引擎已经发现网页的更新频率的基础上的,所以理论上当Spider发现一个新URL抓取并索引后,会很快进行二次抓取。如果没有发现内容变动,就会降低抓取频率,这样慢慢地发现网页的更新频率,以调整到最佳的抓取频率。同时Spider注重的变化应该是网页的主体内容部分,一般会忽略主体内容周围的广告模块、导航模块及推荐链接模块的更新变动。

3.网页类型

不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页的更新频率肯定是不同的。所以对于同一站点内的网页,Spider对不同类型的网页抓取频率是不同的。一般而言,首页和目录页是Spider经常光顾的页面;根据专题页面的时效性或者其他特征,Spider可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率:对于文章页,Spider很有可能第一次来过之后就不再来了。虽然整个互联网中网页很多,但是网页类型并不多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,这也会方便Spider对网页更新频率的判断。

4.网页权重

网页权重是一个网页多种状态的集成,与大站原理相差不多。用户体验策略在一定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯定是权重越高的页面被抓取的频率越高。比如百度首页、360首页、搜狗首页和普通企业站、个人博客站首页都可以简单归为网站首页,并且前三个“首页”长期都不会有什么更新,普通企业站酋页可能偶尔还会有更新,但是前三个“首页”的搜索引擎快照一般都是最新的,而普通企业站或者个人博客站的首页快照可能是一周前甚至一个月前的。这就反映出了网页权重在抓取频率中的作用。

在搜索引擎Spider的实际作业中,不会单独使用某一种再次抓取策略,而是会综合参考网页的用户体验、更新频率、网页类型和网页权重。并且对于不同类型的页面,着重参考的更新内容主体也是不同的。比如,列表页只有一篇新的文章进入可能就算更新了;而文章页主体内容没有变,主体内容周围的所有推荐链接、广告、内容都变了,可能就不会算是有更新。

在日常的SEO工作中,有时候为了提高网站的抓取频率,一般会重点进行优质链接的导入提高权重,努力加大该页面的更新频率;在用户体验和网页类型方面,可以用标题和描述吸引点击,不仅可以提升排名,也能够间接增加页面被Spider抓取的频率;当然需要注意的是,注意标题与内容的相关度,否则会出现高跳出率的结果,降低搜索引擎对网站用户体验的判断结果,影响抓取频率。

对于不同定位的关键词可以使用不同的网页类型(列表页、专题页、内容页等),这在设计页面内容和网站架构时就应该仔细地考虑,并且网页类型这部分有很多工作值得做。比如,有不少网站把整站都做成了列表页,全站没有普通意义上的内容页,内容页主体内容下方或周围也有大量和主题相关的文本内容,一般是类列表形式。不过这种手法有效时间不长,或者损害用户体验后会降低被抓取的频率。不论怎样,优秀的网站架构设计应该合理地利用Spider抓取策略的各种特性。

以上是Spider正常的抓取策略阐述,网页有抓取并不代表一定有更新,这其实也算是一个普遍的现象了。毕竟只有当页面内容的变化值得搜索引擎更新索引时才会更新,比如,上面提到的文章页主体内容不变但是推荐链接全变了,亦或全采集复制的相关网页,一般搜索引擎也不会浪费资源做无意义的更新。

同时当Spider发现已经索引的页面突然被删除,也就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。有的SEO人员就利用这一点增加Spider对自己网站的抓取,并做一些其他的“手脚”。对于这种方法,在作者看来只能算是一个短期的小聪明做法,因为对于网站出现这样的状态,谁又知道搜索引擎对此有什么样的策略并会不会记录,影响搜索引擎对网站的优质印象,站在搜索引擎的角度来看,一个很少出问题的网站一定会比一个经常出现问题的网站要好的多。

对于搜索引擎的再次抓取更新策略,我们稍作了解就可以了。知道其基本的工作原理与原则,再结合合理的SEO优化操作,网站的抓取更新频率总不会太差的。

weinxin
宁缺SEO
宇宙之大,学海无涯。扫一扫,关注微信公众号,查看最新好文章!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: