robots.txt这个文件对于SEO朋友来说很熟悉吧,都知道这是蜘蛛访问网站所查看的第一个文件,因为这个文件可以设置spider在您网站上的抓取范围,即可以声明网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分,那么一旦这个文件出现了错误,就很容易导致spider访问出错,那也必然会影响搜索引擎的正常收录,而搜狐博客就出现了这个错误,而且这个错误一直延续了近一年时间(至少从已知的时间来看是近一年了)。
1、搜狐博客robots文件写错近一年
其实这点有很多朋友早已发现,那就是robots文件中定义搜索引擎类型的时候将英文写错了,只不过搜狐博客似乎没有察觉,而且一直将错误延续至今,从百度快照时间来看至今已近一年时间了,对于一个门户网站而言虽然是一个博客频道,但犯下这么低级的错误实在不应该。
从搜狐博客的robots文件来看,第一行本应该是用来定义谷歌机器人,但是竟然少了个U,也就是说对谷歌机器人的定义是无效的,虽然对其余spider的定义都是正确的,但不要忘了最后一行代码是禁止所有搜索蜘蛛的访问的,而如果结合搜狐博客robots文件的正确写法来看,本意是允许Googlebot、baiduspider、Nutch、msnbot、Slurp这五个spider访问的,而禁止了其他spider的访问,但是由于第一行定义谷歌机器人的代码无效,由于蜘蛛会优先匹配前面所定义的访问URL来进行抓取,那么结果就是禁止了谷歌机器人的访问,而查询结果也是如此。
由于搜狐博客禁止了谷歌机器人的访问,那么也就是禁止了谷歌的抓取和收录,而搜狐博客对会员注册的博客是采用三级域名,对robots文件也是共用,所以取用了其中一个博客作为例子,作为知名IT评论博客我想关注IT的朋友来说刘兴亮这个名字很熟悉吧,他的搜狐博客PR5,对于一个BSP博客来说有这样的PR已经非常不错了。
从图中可以看到,刘兴亮搜狐博客在谷歌当中的快照显示和百度有所不同,除了标题不同,摘要也没有显示,而且连谷歌搜索结果中正常的“网页快照”文字链接都没显示,这样说明了搜狐博客对谷歌是禁止收录的,但是由于禁止搜索引擎访问并不能完全阻止搜索引擎显示,会抓取其他页面对该URL的描述作为搜索结果显示,最明显的淘宝在百度搜索结果中就是如此。
或许大家很难想象四大门户之一的搜狐也会犯下这种低级错误,但实际上就是出现了,从上图来看百度快照时间是去年11月份的,至今查看其robots文件仍是如此,虽然对于搜狐博客来说搜索引擎的收录与否并不足够撼动其地位,但这就是细节,而且是非常低级的错误。
这也对我们做SEO的来说也是值得注意的,通过此例不难看出,对于大型门户网站而言搜索引擎也会保持同等的态度,最典型的代表就是淘宝屏蔽百度蜘蛛,尽管搜狐博客是由于失误所致,但一个小小失误却足以引发巨大变化,对于大型门户网站来说能够影响的收录变化那都是几千万级别的。
所以我们不能因为事情小而不去认真做,对于SEO来说往往差距就是出现在一些细节上面,比如对分词技术的把握,对全局关键词的分布或者说对站内链接的架构,这其实都是一些细节,但就是这些细节却能决定你网站SEO效果。
最后也欢迎大家给我留言和我交流,一起探讨SEO,相信不同的SEO理解一定会产生不同的SEO思维。
大家有什么问题或技术上的想法可以在此与大家分享,也可以加入前端爱好者QQ群(141999928)一起学习进步:
【幸凡前端技术交流群】
如果您觉得本文的内容对您的学习有所帮助,捐赠与共勉,支付宝(左)或微信(右)