网站日志分析:清楚网络蜘蛛的爬行日志
在seo逐步普及的大浪潮下,许多所谓的seoer都将她简单归结为内容和外链,其实这个说法并没有错,内容和外链的确是做seo最为重要的两大手段,但这就好像某领导在某大会上发言:“我们要继往开来,我们要卓越进取!”,继往开来是对的,卓越进取是对的,但靠什么继往开来、卓越进取就不得而知了。所以在这里我想说的就是科学的理性的看待seo,内容和外链发布中的一些方法细节在这里姑且不谈,我们就谈一谈如何有效分析一个阶段中seo的效果。
下面言归正传,大家都应该知道搜索引擎对网站的了解靠的是网络蜘蛛,所以通过分析网站日志中网络蜘蛛的动向,就能清晰的认识到蜘蛛的访问频率、访问去向,从而分析得出正确的seo优化方法。
一般的网站日志形为
66.249.72.250 - - [16/Jun/2012:01:03:44 +0800] “GET /skill/skill06/20120501_261_2.html HTTP/1.1” 200 15468 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” tcie.cn text/html “/usr/home/hmu090204/htdocs/skill/skill06/20120501_261_2.html”
每一项数据代表什么意思就不一一介绍了,不明白的可以去问百度。那么我们前面说要分析一个阶段的数据,这一个阶段可以是半个月、1个月甚至可以是1年,然后通过我们介绍的方法,来达到数据分析的目的。具体操作如下:
1、 例子中选取了1周的数据,在这里我们需要用到一个工具——《光年SEO日志分析系统》(非广告),利用它的“日志拆分”功能,就能达到目的,方法如下图。
2、 点击下一步后,添加拆分条件,选择到agent,在自定义值处填入baiduspider(这里是分析百度蜘蛛,也可以填入googlebot来分析谷歌蜘蛛),然后再下一步……直到保存,最后会生成两个.log文件,不带_exclude的是我们需要的,带_exclude的则是拆分后剩下的。
3、 打开我们需要的log文件,然后从第四行的date开始直到结束,整体复制到excel中A列中,然后利用excel的分列功能,“数据”-“分列”-“分隔符号”-勾选“空格”-“完成”,最终得到我们需要的表格化的数据(表头如下图)。
4、 前3步是网站日志数据表格的制作过程,接下来就需要用到excel中强大的“数据透视表”功能进行数据分析的工作,我这里用的是excel2003版,用07版的同学可以在数据那一项找到。
5、 点击“数据透视表和数据透视图”后,excel已经帮我们选定好了范围,再点击完成,之后会出现“数据透视表”的界面。
6、 我们可以尝试将“数据透视表字段列表”中的“date”拖入“行字段”中,然后将“cs-method”拖入“数据字段”中,大家看到了什么?如图所示,从6月10日到17日,每一天百度蜘蛛访问的次数就显而易见了,蜘蛛的访问频率一定是和我们的操作有关的,回忆一下,在蜘蛛访问频率高的前一天你都做了些什么,多做这样的总结,你就能得出规律了。
7、 你不仅可以分析每一天的蜘蛛访问频率,也可以分析蜘蛛抓取了你网站的哪些页面,方法很简单,将“数据透视表”中“行字段”的“date”换成“cs-uri-stem”,重新刷新数据透视表即可。
上面我讲到也只是一些基础的方法,还是那句话,工具是死的,人是活的,数据分析的维度在于你想知道什么样的结论。