日志分析(三):robots.txt

  • A+
所属分类:SEO入门

robots

了解了网站日志分析的方法与意义,我们开始进行网站日志分析。而在进行分析之后,不少SEO朋友可能会在日志分析相关数据中发现以下问题:

1)访问我们网站的搜索引擎蜘蛛可能有很多,如谷歌、百度、搜狗、微软bing等等。如何限制某类蜘蛛访问我们网站?

2)搜索引擎蜘蛛抓取了同一个页面的多个URL。如原动态URL进行伪静态之后,就不希望动态URL被抓取了,那该如何进行重复屏蔽呢?

3)搜索引擎蜘蛛抓取了空页面,也就是所谓的无内容页面,如何进行空页面屏蔽?

4)搜索引擎蜘蛛抓取了因网站改版或文章删除等原因而留下的未清理的死链接,如何进行死链接屏蔽呢?

5)搜索引擎蜘蛛抓取了大量我们所不希望被其索引的内容,如隐私数据、用户信息、管理后台等页面,该如何屏蔽?

6)搜索引擎蜘蛛抓取了网站一些无价值页面,如相关个人中心、联系我们等鲜有人搜索的页面。该如何进行无价值页面屏蔽?

以上是我们进行网站日志分析都会发现的一部分常规问题,而解决这些问题就需要用robots.txt文件。

robots.txt文件是引导搜索引擎Spider抓取网站的文件。在2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议,也就是搜索引擎Spider在抓取网站内容之前需要先抓取网站的robots.txt文件。

而在进行以上问题解决时,我们又该如何来写robots.txt里的文件内容来进行屏蔽?首先我们要了解robots的基本指令。

User-agent: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的内容就对特定蜘蛛有效。

常见的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider

Disallow: 此指令定义禁止蜘蛛抓取,也就是我们需要进行的相关屏蔽设置,此指令是robots.txt文件应用做多的。

Allow: 此指令定义允许蜘蛛抓取,一般网站很少用到此指令。

关于Disallow的写法在这里仅以wordpress博客举例,并在后面附上本博客的robots.txt文件内容:

1、User-agent: *

允许所有搜索引擎抓取网站,除非你网站有特别针对某个或多个搜索引擎,你可以适当的设置其抓取。如下只允许百度和谷歌抓取:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /

这样设置的意思为只允许百度和谷歌的蜘蛛抓取所有,但是这里子凡用的是Disallow并设置的/根目录,所以这里其实是禁止了百度和谷歌抓取,如果要允许所有可以使用Allow,大家可以举一反三的使用,仔细的体会感受一下。

2、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。

3、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

4、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。

5、Disallow: /*/trackback和Disallow: /trackback/
禁止搜索引擎抓取收录trackback等垃圾信息

6、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

7、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果

8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Disallow: /wp-*.php
禁止搜索引擎抓取WordPress网站根目录的以wp开头的文件。

10、Sitemap:
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。

以下是宁缺SEO博客的robots.txt文件的写法:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Disallow: /tag/*/page/
Disallow: /category/*/page/

Sitemap: http://www.ningqueseo.com/sitemap.xml

关于robots.txt中的Sitemap声明网站地图,这原本是Google所支持的一个功能,且该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。目前此写法只有Google明确表示支持,对于其它搜索引擎却不一定有效,如百度、360、搜狗,不过这些相关的搜索引擎站长平台都有专门的Sitemap提交入口,我们可以利用其进行Sitemap提交。同时,根据《互联网搜索引擎服务自律公约》,在robots.txt中添加Sitemap,应该也只会有益而无害的。

最后需要说的是,无论网站是否允许全部抓取还是限制抓取,无论是否添加robots.txt文件,为了遵守《互联网搜索引擎服务自律公约》,搜索引擎在抓取网站内容之前,都会对robots.txt文件进行频繁的抓取,所以进行robots.txt文件的添加以及有关设置,总归是没有坏处的。同时,对于robots.txt文件内容,一定要根据自身网站的实际情况以及需求进行合理的填写,而不是去照抄别人的网站或者网上的有关指导性事例,为了robots而robots。

weinxin
宁缺SEO
宇宙之大,学海无涯。扫一扫,关注微信公众号,查看最新好文章!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: