认识SEO之搜索引擎工作原理

  • A+
所属分类:SEO入门

搜索引擎工作原理

从本质上来讲,SEO其实是在保证用户体验的基础上尽量迎合搜索引擎,所以SEO既要从用户的角度出发,也要站在搜索引擎的角度来考虑问题。

而站在搜索引擎的角度来考虑问题,我们SEO优化人员就要对搜索引擎基本的工作原理有一定的认识与了解。因为当我们了解了搜索引擎的工作流程、策略以及基本的一些算法之后,才能更好在日常的一些SEO优化操作、调整中去避免一些来自搜索引擎的处罚,同时对于出现的一些搜索结果异常的反馈信息我们也能快速的做出分析并进行相应的处理。

搜索引擎大致分为包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。各类搜索引擎的架构和检索技术虽说各有区别,但是宏观上基本搜索原理都是差不多的。

整个搜索引擎的工作原理大致可以分为两部分、四步骤。两部分:1.搜索引擎主动抓取网页,并进行内容处理、索引;2.当有用户进行查询后,搜索引擎对搜索词的分词处理以及页面的排名呈现。四步骤:1.爬行;2.抓取存储;3.预处理;4.排名。

下面就让我们来了解一下搜索引擎大致上的一个工作流程与机制。

1.搜索引擎主动抓取网页,派出spider,按照一定策略把网页抓回到搜索引擎服务器,并将爬行的相应数据存入原始页面数据库;

2.对抓回的网页进行链接关系计算与链接抽离、内容处理,消除噪声(如版权声明文字、导航条、广告等)、提取网页主题文本内容等;

3.对网页的文本内容进行提取文字、中文分词、去除停止词等;

4.对网页内容进行分词后判断该页面内容与已索引网页是否有重复,剔除重复页,同时对视频、Flash、JS等搜索引擎还无法识别的内容进行处理,然后对剩余网页进行倒排索引(由于正向索引的弊端,后来搜索引擎将正向索引构建为倒排索引),然后等待用户的检索;

5.当用户进行检索查询后,先对用户所查询的词进行分词处理,并根据用户的地理位置和历史检索记录进行用户需求分析,从而展示给用户可能最需要的关于地域性搜索结果与个性化搜索结果的相关内容;

6.查找缓存中是否有该关键词的查询结果,如果有,搜索引擎会根据当下用户匹配的各种相关特征来判断其可能的“真正”需求,对缓存中的结果进行相应调整或直接呈现给用户,从而达到最快速给用户呈现查询需求结果的效果;

7.如果用户所查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中,以便日后的需求直接呈现;

8.网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(权重)和用户体验的高低进行综合分析所得出的。用户在搜索结果中的点击和重复搜索行为,也可以告诉搜索引擎用户对搜索结果相关网页的一个用户体验(现在很多做快速排名的软件基本上利用的就是这个原理,而针对此类快速排名作弊方法,搜索引擎系统也在进行着对应的反作弊算法干预)。网页的排名也并非完全由搜索引擎机器来决定,对于一些特殊情况,官方会进行相应的人工干预。

综上所述,整个搜索引擎的工作流程与机制大概会涉及spider、内容处理、分词、去重、索引、内容相关性、链接分析、判断页面的用户体验、反作弊、人工干预、缓存机制、用户需求分析等模块。我们日常的一些SEO工作其实也就是从这些模块中细分出来的,通过对这些模块的了解,将更有益于我们的SEO工作。

weinxin
宁缺SEO
宇宙之大,学海无涯。扫一扫,关注微信公众号,查看最新好文章!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: