robots.txt 文件使你能够指定你希望阻止其在你网站上抓取文件的漫游器(
也被称为"bots"、"抓取工具"、“
搜索引擎蜘蛛”)。
网络上有很多各种各样的 robots.txt 生成器。
Google网站管理员工具中的robots.txt 生成器是第一个由搜索引擎自己提供的生成器工具。
robots.txt文件其实很简单,只有几个简单的命令,
用记事本就可以编辑了。但是对于很多菜鸟站长来说,
robots.txt文件还是太过于复杂了。
使用Google网站管理员工具 robots.txt 生成器,你就能够轻松创建 robots.txt 文件了。
注意:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以即使你的网站上所有文件都需要蜘蛛抓取你还是应该在网站中添加一个robots.txt。
登陆Google网站管理员(
https://www.google.com/webmasters/),
选择你要检查的站点,在点击网站配置,选择抓取工具访问,
就可以看到“生成robots.txt”工具了。
路径:登陆Google网站管理员>选择战点>网站配置>抓取工具访问>生成robots.txt(Generate robots.txt)
1. robots.txt生成器工具默认选项是“允许所有漫游器”—
—允许所有的搜索蜘蛛抓取网站。如果你也是希望这样的话,
那你直接用下面这个生成的代码就行了。
User-agent: *
Allow: /
2. 你可以修改默认选项为“拦截所有漫游器”,这样做,你会得到下面的2行代码:
User-Agent: *
Disallow: /
这2行代码意味着你网站上的所有网页对所有的搜索引擎蜘蛛都不允许抓取。
3. 指定任何附加规则。例如,要阻止 Googlebot 访问你网站上的所有文件和目录,按以下步骤操作:
在
操作列表中,选择
拦截。在
漫游器列表中,点击
Googlebot。在
文件或目录框中,键入
/images/。点击
添加。robots.txt 文件的代码将会自动生成。
你会得到下面这样的代码:
User-Agent: *
Allow: / 第一部分表示允许所有的蜘蛛进入(其实这部分完全可以不需要),
User-Agent: Googlebot
Disallow: /images/
Allow: / 第二部分表示不允许Googlebot抓取images文件夹里的内容
最后,保存robots.txt 文件,方法是下载文件或将内容复制到文本文件并保存为 robots.txt。将文件保存到您网站的顶级目录下。
robots.txt 文件必须位于域的根目录中并命名为"robots.txt"。
位于子目录中的 robots.txt 文件无效,因为漫游器只在域的根目录中查找此文件。例如,
http://www.example.com/漫游器.txt 是一个有效的位置,但
http://www.example.com/我的网站/漫游
器.txt 是一个无效的位置。
另外,这个工具中只是列出了Google的蜘蛛,
不过你也可以自己定义想要禁止的别的搜索引擎蜘蛛名称。
附各大搜索引擎的蜘蛛名称
Google的蜘蛛:
1) Googlebot:
从Google的网站索引和新闻索引中抓取网页
2) Googlebot-
Mobile针对Google的移动索引抓取网页
3) Googlebot-Image:
针对Google的图片索引抓取网页
4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。
5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。
百度(Baidu)蜘蛛名称:Baiduspider
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp
有道(Yodao)蜘蛛名称:YodaoBot
搜狗(sogou)蜘蛛名称:sogou spider
MSN的蜘蛛名称:Msnbot