wordpress站点设置robots.txt文件失效的原因

相信很多站长都知道robots.txt这个文件是用来干嘛的,没错,这个文件就是用来引导或阻止搜索引擎收录网站的东西,前段时间使用wordpress建立博客的时候就遇到一个问题,因为网站内容还没有填充满,所以还不想被搜索引擎收录,我就在网站根目录下放了robots.txt文件,内容如下
User-agent: *
Disallow: /
就是上面两句,意思是组织所有搜索引擎爬行,代码应该没错,问题来了,不但没有阻止,反而收录了,这是什么原因呢?我试着直接在地址栏输入网址+文件名,也就是robots.txt文件,发现没有找到该文件,当时还觉得有点奇怪,为什么会说找不到,找了半天没找到结果,就这样过了几天,无意间想到,网站开启了伪静态,要把文件名加到规则里面才能访问到文件,果不其然,加入文件名规则后立马就见效了。。。解决方法很简单,到现在才想到,唉,脑子不太灵活。。。

win主机下httpd.ini加上一行:RewriteRule /robots.txt /robots.txt [L]

下面列出常用的robots.txt的常用规则写法:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow:/  不允许搜索机器人爬行网站所有目录及文件
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow:/A 是屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow:/cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow:/tmp 这里定义是允许爬寻tmp的整个目录
Allow: /.htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: /.gif$ 允许抓取网页和gif格式图片

分享到:
标签:robots.txt,robots规则,搜索引擎,
^_^ 亲爱的客官,如果您觉得本文对您有好处,请移动你的鼠标点点下面的广告或上面的或右上角的,非常感谢~ ^_^

wordpress站点设置robots.txt文件失效的原因:目前有9 条留言

  1. 怎样加入规则??

    2013-08-06 下午 7:10
    • 谢谢提醒,忘记配置写上了…..在win主机下的httpd.ini文件里加上一行:RewriteRule /robots.txt /robots.txt [L],这样就能访问到robots.txt文件了

      2013-08-06 下午 10:42
      • 怎样更新robots?根目录找不到这个文件

        2013-08-07 下午 9:34
        • 新建一个纯文本文件robots.txt,里面写上允许搜索引擎抓取或不允许抓取的页面就可以了

          2013-08-07 下午 10:03
          • 试过了,就是没更新,很久了

            2013-08-07 下午 10:04
            • 你是不想让搜索引擎抓取还是想让它抓取?

              2013-08-07 下午 10:07
              • 不想它抓取,就是想更改robots,可上传到根目录根本就没反应,不知道是哪里出错

                2013-08-07 下午 10:09
                • 你加我QQ聊

                  2013-08-07 下午 10:10
  2. 沙发
    开始到现在-:

    学习了

    2013-08-06 下午 6:46