Spider之抓取策略

  • A+
所属分类:SEO入门

Spider抓取策略

因为资源的有限性,而互联网资源规模的日益扩大以及快速的变化,对于全文搜索引擎的Spider来说,抓取到全网的数据并做到合理的筛选、更新的一致性来满足广大网民搜索上的优质体验和需求,就现在搜索引擎的发展现状来看应该是一件十分艰巨且几乎不可能的事情,所以就有了一些相关的抓取策略的诞生来进行资源的合理分配。

我们都知道网站由众多网页组成,其中的每个网页基本上都有相关的导出链接链接到其他网页,或站内,或站外。无论Spider从其中哪一个网页开始抓取,都会获得这个页面上所有的导出链接。而所获取的每一个导出链接都对应着一个页面,当Spider顺着这些导出链接进入那些页面的时候,又会从每一个导出链接对应的页面获取一定数量的导出链接....Spider从入口页面开始抓取,从理论上看,几乎就开始了一个从1到正无穷数量网页的抓取过程,也就是所谓的全网数据的抓取。

而这一全网数据的抓取过程并不是一条直线,而似一棵有着无数枝干的参天大树。那么Spider是如何来爬完这棵树的呢?

1)从树的底部开始爬行树干,在爬行树干底部到顶端的路上,将遇到的从树干分出的枝干一层一层的爬完,再返回以同样的规则将其它的每一个从树干分出的枝干爬完,一直爬到树顶,也就是现在所定义的深度优先策略。

以网页链接来看,Spider从入口页面开始抓取,获得数量不等的导出链接,而在爬取其中某个导出链接时,会将这个导出链接所有的链接关系一层一层的爬到尽头才会继续以同样的规则来爬取从入口页面获取的其它的导出链接。

2)先从树的底部一直爬到顶端,然后再爬取从树干分出去的枝干,再以同样的规则爬取从枝干分出去的下级枝干,如此循环,一直爬到尽头,也就是现在定义的广度优先策略。

同样以网页链接来看,Spider会先把从入口页面所获得导出链接全部爬取完,然后才会以同样的规则爬取从导出链接中获得的下一级导出链接,如此循环,依次抓取下去。

以上两种抓取策略,对于全文搜索引擎抓取全网数据来说,理论上,只要时间足够,其效果基本上是一样的,都可以将互联网上的网页抓取一遍。事实上,由于资源的有限,搜索引擎并不会单独的采用以上任意一种策略去进行无限制的抓取,而是会结合两种策略以及其它相关策略一同使用来达到最优的抓取效果。

最为常见的现象就是很多新站在一段时间内通常只有首页会被搜索引擎抓取并收录。这里就是搜索引擎为了尽可能的收集更多的网站,在域名级别的页面采用了广度优先的策略;而对于网站内页级别,则会采用广度、深度相结合的策略进行抓取,同时根据网站的权重越高,抓取量也会越大,所以新站的内页在一段时间内无法被抓取收录的状况是十分正常的。

在使用深度与广度这两种抓取优先策略来抓取全网数据的同时,搜索引擎还会同时采用包括权重优先策略、反链策略、社会化分享指导策略等优先级抓取策略。但不管是哪种优先级策略,从根本的出发点来看,其实都可以看作是重要性抓取优先的策略。

一般而言,权重高的页面是被认定为重要性页面,会被搜索引擎友好对待;除了受主战点本身的质量和权重影响,如果一个页面的导入链接数量以及导入链接的质量都不错,一般也会获得一个不错的权重,因而会被搜索引擎认为是重要的;在社会化分享中,搜索引擎会通过用户点赞、分享转发、评论等因素来判断页面的用户体验从而认定是否是重要性的....

搜索引擎对页面重要性的判断还有很多,其实我们可以去参考一下我们常说的大站。以上的优先级抓取策略,纵观大站,其实都有所包含。同时大站一定有着稳定的服务器、良好的网站结构、优秀的用户体验、及时的资讯内容、权威的相关资料、丰富的内容资源、庞大的网页数量以及大量的高质量外链。因此对于大站,搜索引擎会有着“特殊照顾”,其Spider几乎是24小时全程不间断的抓取大站里的内容的,这也是很多SEO朋友和站长经常在里面留下链接的主要原因,对于新站而言留下的链接也会有着不错的抓取、收录效果。

因此,在搜索引擎有限的资源下,Spider在尽力抓取全网数据的同时,会首先保证对重要性网页的抓取。当然,Spider的抓取策略还包括暗网数据的抓取、多重URL重定向的识别、常用抓取返回码示意、抓取友好性、抓取反作弊等等。不管是何种策略,其最终目的就是为了做到资源的最大化利用,为网民提供有价值的搜索结果,从而提高用户的搜索体验度,这也是现在各大搜索引擎之间的竞争点之一。

weinxin
宁缺SEO
宇宙之大,学海无涯。扫一扫,关注微信公众号,查看最新好文章!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: