搜索引擎之Spider的分类

  • A+
所属分类:SEO入门

spider分类

我们都知道,只有被Spider爬取过的网页,才可能被搜索引擎收录及参与排名。需要知道的是,有些被Spider爬取过的网页,被搜索引擎收录以及参与了排名,但其网页内容却没有被Spider抓取到,而是进行了相关的网站屏蔽。这类情况并不少见,比如我们经常会用到的淘宝网。

淘宝搜索结果

 

在保证网页结构、内容质量的前提下,Spider对网页的抓取频次越高,对于网页的收录数量及收录速度的益处不言而喻。

提高Spider对网页的抓取频次,对Spider的抓取原理有基础的了解是很有必要的。

Spider,通常被大家称为搜索引擎爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。我们平时遇到的搜索引擎品牌类爬虫大概有以下几种:Google爬虫、百度爬虫、好搜(即360)爬虫、搜狗爬虫、新浪爱问爬虫、有道爬虫、Alexa爬虫、雅虎爬虫、必应爬虫,而Google、百度、360、搜狗这四类应该是我们最常见的品牌爬虫了。

Spider是如何来抓取网页的呢?

一般而言,大型的网页搜索的全文搜索引擎的Spider对于整个万维网内的网页抓取是没有固定的目标、范围和时间上的限制的,为了充足网页的数据库的数据,尽可能的给网民满足搜索上的需求及提高用户体验,这些搜索引擎派出的Spider会对未抓取的网页进行无限制的抓取及筛选;而对已经抓取并储存的网页也会进行规律的重新抓取以及筛选,因为绝大多数网页里的内容都是会不断更新的。

区别于大型的网页搜索的全文搜索引擎的Spider,一些Spider对于抓取是有相关限制的,它们会设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等,当Spider的作业达到预先设置的目标就会停止;又或者是只对特定主题、特定内容或特定行业的网页进行抓取。结合《SEO深度解析》以及百度百科,这些Spider大概可以分为以下四类:

1.批量型Spider

一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等,当Spider的作业达到预先设置的目标就会停止(普通站长和SEO人员使用的采集工具或程序,所派出的Spider大都属于批量型Spider)。

2.增量型Spider

增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止(所谓的蜘蛛陷阱就是利用增量型Spider这一特点来进行的)。

3.垂直型Spider

垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。

4.Deep Web 爬虫

Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面(最常见的莫过于用户注册之后内容才可见)。Deep Web 爬虫爬行过程中最重要部分就是表单填写,包含两种类型:

1) 基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。

2) 基于网页结构分析的表单填写: 此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成 DOM 树,从中提取表单各字段值。

整个万维网内的网页浩如烟海、数之不尽,且每时每刻都在进行数量上的增加以及内容上的更新。针对网页搜索SEO,以通用型Spider为例(我们常用的Google、百度、360、搜狗等搜索引擎的Spider都是通用性Spider),想要对这些网页进行全部抓取、筛选、分类存储、索引排名,包括对网页的不断更新的重新抓取等一系列动作,就当下而言,所耗费的资源无疑是十分巨大的。为了进行全面的抓取、充分利用整个资源以及尽量给用户提供优质的搜索需求,所以Spider在抓取网页的时候又会做出相关的抓取策略。

(相关Spider的抓取策略请见下一章,谢谢!)

weinxin
宁缺SEO
宇宙之大,学海无涯。扫一扫,关注微信公众号,查看最新好文章!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: