分享关于权重杜绝重复收录,屏蔽蜘蛛抓取指定域名,多域名绑定一个

http://www.itjxue.com  2017-08-17 17:26  来源:未知  点击次数: 

各位朋友:

      大家好,最近想学做个网站,因为使用了两个域名,分别启用解析: 
www.abc.com 和 abc.com ,www.abc.net 和 abc.net 等四个网址路径,如果做个好站,肯定权重会有分散,有影响。个人喜欢用顶级 acb.com 不想用 www 二级作为主站。但是常人的规律就是要带 www 的习性,也是最好的(后看到一些文章指出)。

      参考:
规范的网址书写方式,有利于提高网站主页权重。
                      http://bbs.abc.com/thread-2872629-1-1.html
     有没有带www,有什么不同?在DNS中,www是你要解析的主机名。在做域名解析时,会要你为域名:domain.com填写一个主机名,我们一般填:www 。当然,也可以填 bbs或者其它的诸如abcde等等。如果填,那么,主机返回的页面就不一样。对搜索引擎来说,这是两个不同的站点,两个不同的页面。两个都要计算PR值。

      所以看来还是要二级域名 
www.abc.com 作为主站最好了,因为我一个空间已经绑定了四个网址,所以不希望蜘蛛爬到其他三个网址上抓取链接内容,导致链接重复降权等,就找了很久关于 屏蔽所有蜘蛛搜索引擎抓取指定域名 的文章,有些有所提示,但是不够详细。

       
刚刚终于找到了一篇比较详细的文章,所以复制过来和大家一起探讨学习。希望有同样问题的朋友勇于加入交流学习。高手请指点,我们菜鸟希望学会分享交流,不要总做拿来主义......


 
利用.htaccess屏蔽搜索引擎蜘蛛抓取某个域名下的链接
http://www.itjxie.com/dede/
 
根据域名读取不同的robots.txt文件-思路分析
http://blog.sina.com.cn/s/blog_9cdb25c60101gjfp.html
技术的高低绝大多数取决于思想的层次,思路的开阔,一个问题的解决方法有千千万种,这就是解决问题的能力,这是一种思想。
昨天中午李总交给我一个任务,www.bjntyy.com优化站的robots.txt是正常的,如果是nt.jyz001.com推广站访问要将robots.txt改为屏蔽所有,这两个站是绑定到一个空间上的。
我是这样去分析解决的。
方法一:根据php 【if($_SERVER["SERVER_NAME"]=="你的域名") 】判断域名来路然后输出<meta name=robots content='all'>或者<meta name=robots content='none'>;但是我用的是dede,.html是不执行php的,放在模板中解析也是不可以的,所以此法不成立;
方法二:在index.html里面写js,【document.getElementByName('robots')[0].content='none'】来改变<meta name=robots content='none'>的值;此方法确实能改变,但是源码是不改变的,搜索引擎抓取的是源码,js改变的东西无效,所以此法不行;
思路三:在robots.txt里面写程序,此法更不成立,.txt是不能解析的。;
通过以上我的分析,最终给了李总一个答复,从原理上是不可行的;李总给我了一下几个思路;
方法四:.htaccess【
ErrorDocument 404 /404.htm
RewriteEngine on
RewriteRule ^robots.txt$ /robots_%{HTTP_HOST}.txt [L]
】如果是apache的话,此法肯定可以的,我咋没有想到呢,我懵了,我的思路还是不够开阔呀,如果不是apache,重定向应该也行的。

------------------------------------------------------------------------------------------------------------

Google搜索优化建议 -- 阻绝重复内容的抓取

 
      经常会遇到一个网站多个域名的时候,例如我们用cdn的子域名做加速,或者是cache做缓存等。
     于是,就照成了重复收录的问题,但是这又不是301可以解决的问题,因为这些资源我们不想用301.
     如下图,cache.henmang.net与henmang.net完全重复,实际上这是一个CDN静态加速网页
解决方法:用robots.txt拒绝搜索引擎抓取。
这里又用到了apache的.htaccess,添加如下规则
 

1 RewriteRule ^robots.txt$ /robots_%{HTTP_HOST}.txt [L]
 
 
   然后在根目录放置robots_cache.henmang.net.txt 这样的txt文件即可。
   当你访问 cache.henmang.net/robots.txt的时候就访问到了 robots_cache.henmang.net.txt,其他域名同理。
   这样就可以对同目录下的不同域名分别设置robots规则了。

 
 
   推荐一个robots规则生成工具 http://www.3464.com/Tools/Robots/


    希望有朋友一起交流,有所知、有所成效的朋友,望能指点迷津。。。

(责任编辑:IT教学网)

更多