查看服务器IIS日志:分析网站蜘蛛爬行日志(2)
http://www.itjxue.com 2015-07-19 16:26 来源:未知 点击次数:
下一步>其他>输入空格>下一步>完成。这样第一步就完成了。
然后选择A1列>右键>插入 然后将C,D,E,I列删除。在第一行分别输入:日期,时间,网页,参数,端口,IP,蜘蛛,状态码 另外说明一下参数,参数这个是动态网页面问号(?)后面的部分。http://www.***.org/jiaju/chufang /5309_3.html 这个路径后面的参数值为3,那么组合之后真是的URL就是http://www.***.org/jiaju/chufang /5309_3.html?3 因此说明蜘蛛还是可以分辨参数的,有些网站投放广告后面经常都会带上参数进行统计,但经过抓取后参数都会被去除的。所以尽量不要在内容页使用此类的URL。
选中G列>数据>筛选>点击G列箭头>文本筛选>包含
输入baidupider 点击确定。即可看到所有百度蜘蛛访问的数据,这样的话大致的数据已经呈现出来了,如果查看google在筛选时候输入googlebot就可以了。随后制作一个简单的数据透视表便于分析。 一次顺序:插入>数据透视表>数据透视表>确定 在右侧按先后顺序勾选网页,蜘蛛,时间。然后点击蜘蛛后面的小三角,
点击标签筛选>包含>输入baidupider。既可以筛选出最终要看的网页的spider爬行时间详细数据,当然可以按照其他组合进行筛选各类数据,就不演示了。