SEOer习惯查看空间主机的日志:判别真假百度蜘蛛

http://www.itjxue.com  2015-08-02 11:03  来源:未知  点击次数: 

作为一名SEOer总是习惯的查看空间主机的日志,分析爬虫爬过的网页,做好网站下一步的SEO的准备,有人问老林在查看蜘蛛爬行记录里,总会发现这2个百度蜘蛛(BaiDu Spider)IP中出现125.90.88.96和222.77.187.33,如图:

通过IP查询地址查询,该IP是位于福建省福州市电信IP,而百度蜘蛛IP是位于北京的联通IP。

还有一点就是该IP的抓取行为只抓取网站首页,经查询,这2个IP分别为站长工具的SEO信息查询功能和友情链接检测功能,2个功能都默认模拟百度蜘蛛程序抓取页面。

SEO信息查询功能界面

SEO信息查询功能

该工具域名“seo.chinaz.com”对应的IP为“125.90.88.96”,位于广东省茂名市。

友情链接检测功能

该工具域名“seo.chinaz.com”对应的IP为“222.77.187.33”,位于福建省福州市。大家可以反查证实,老林就不去截图了。

百度蜘蛛IP(貌似百度官方给过,具体地址不记得了,但是老林记下来了)

123.125.71.* Baiduspider/2.0(百度网页爬虫),也包括 Baiduspider-image(百度图片爬虫) ;61.135.186.* Baiduspider-cpro(百度联盟爬虫) 【最后一位是“*”代表IP段中的某一个IP。】

老林在前面里说过关于SEO包含了什么,所以站长对搜索引擎爬虫(蜘蛛、Spider)数据对这些数据的分析,可以了解到搜索引擎是否爬过自己的网站,如果连爬都不爬,那何来收放(收录和放出页面)之说,更可以针对性分析搜索引擎的爬虫数据,有助于了解这些蜘蛛的爬行习惯,进一步改进网站。

老林发现很多SEO人员或者新站长在网络上询问:

(1)为什么百度蜘蛛(125.90.88.96和222.77.187.33)总是抓取的网站首页?

(2)为什么百度蜘蛛(125.90.88.96和222.77.187.33)总是抓取而不是收录我的网站?

(3)125.90.88.96和222.77.187.33这2个IP是不是百度蜘蛛的,怎么老是只爬首页?

类似以上的问题在网络上很多,就不一一列举,但是这些假百度蜘蛛(BaiDu Spider)IP会影响SEO人员对搜索引擎蜘蛛程序行为分析的判断结果,从而可能会影响SEO决策,说重点可能会影响到站长的心情!

还有一点就是,如果类似这些伪装百度蜘蛛的IP地址,抓取数量比较多,造成的影响则是耗尽自己的网站流量,大家就需要考虑是否在程序里或者robots.txt里设置屏蔽掉这些IP,避免各类的影响。(本文首发于蛋疼博客http://a250.net,转载请留链接,谢谢!)

(责任编辑:IT教学网)

更多