网站建立初期通过分析网站日志正确评估网站
按奈不住激动你横眉冷对怒发冲冠:百度你是吃屎的吗?该发布的发布了,该提交的提交了,现在都半月过去了,还毫无动静!谷歌?还好了,已经过百了,可一个IP都没有啊!真不明白它们到底干什么去了,反映这么慢。还让不让老子干了?
对了,我网站是不是有问题?你帮我看看……于是,另一番歇斯底里的好戏上场了。在我看来,百度并没有吃屎,恰恰于此相反,他是靠吃我们站长强奸我们站长长大的。抛开那些牢骚不说,当我们开始对工作有疑问时,为什么不尝试自己去解决呢?
实际上,当我们开始牢骚时,暗流正在涌动,白纸黑字已经隐藏在日志里了。本文将和大家一起,通过分析网站日志,初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期,对我们正确评估网站,有着比较重要的指导意义。
认识几个搜索引擎爬虫
Googlebot 谷歌搜索引擎爬虫,当它第一次出现在你网站日志时,谷歌和网站的漫长交往正式开始。Googlebot 是 Google 的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。
Baiduspider 百度蜘蛛,大多数中文网站辛辛苦苦,就是为了有朝一日能和这个蜘蛛搞对眼,对眼了小站也就有油水了。Baiduspider 是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
Sogou+web+spider:sogou spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页,存储到本地数据库中,并从中发现新的链接,走访互联网,使用户能在搜狗搜索引擎中搜索到您网站的网页。
ia_archiver:这个是Alexa的蜘蛛爬虫,和Googlebot、Baiduspider一样,为收集用户数据而存在。
Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客,有朋自远方来,要不亦乐乎?
搜索引擎爬虫第一次到你的网站都干什么?
就如同拜访您的朋友,到你家门口都会礼貌的敲门,吃一两次闭门羹或许尚可忍受,吃多了闭门羹,从此和你一刀两断,能否挽回交情那自要下另一番功夫了,咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站,它们会先干什么呢?用分析数据说话。
2011-10-12 14:53:22 *** GET /robots.txt *;+Googlebot/2.1;* 404
2011-10-13 02:16:58 *** GET /robots.txt * Baiduspider * 404
2011-10-13 11:12:00 *** GET /robots.txt * Sosospider+ * 404
2011-10-17 01:46:56 GET /robots.txt *;+Googlebot/2.1;* 200
上面的时间是GMT时间,我们是在东八区,加上8小时就是北京时间了。从上面可知,谷歌百度搜搜先后来本站请求robots.txt文件返回404错误,页面无法找到。17日早6点我写了一个robots.txt文件,谷歌第一时间请求该文件,返回200成功状态码。
2011-10-12 15:44:53 *** GET /index.asp *+Googlebot/2.1; * 200
2011-10-12 22:01:23 *** GET /index.asp * Sogou+web+spider/4.0 * 200
2011-10-13 01:22:19 *** GET /index.asp *;+Baiduspider/2.0; * 200
2011-10-14 12:17:47 *** GET /index2.asp *;+Googlebot/2.1;* 200
12日晚上21点左右,谷歌爬虫率先请求了我的首页,网站积极响应返回200状态码,搜狗百度紧跟其后。14日为线上测试需要,把默认首页改成index2.asp,并在上面写上蛋蛋的蛋,谷歌不负众望很快收录,三日之后还给我放了出来,让我哭笑不得。
请注意红色标记Baiduspider和+Baiduspider/2.0,前面是个先头兵?从上面结果来看,百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然,我喜欢用Firefox编辑测试,Firefox有谷歌工具条,并习惯于登录状态。
注:数据来源于我的新站,为版面整洁直奔主题,把不相关内容删减了,未做任何改动。