Robots.txt的用途是什么

      Robots.txt通常是放到网站根目录，它的用途是禁止访问网站的某些文件目录。
      举个例子，我网站根目录/templets/文件夹下是我们的重要文件，不想让用户访问，那么我们就可以在Robots.txt中添加一句Disallow: /templets  ，这样当用户通过在浏览器地址栏输入http://你的域名/templets/ 时也不能访问templets目录下的文件，所以我们可以看出Robots.txt文件就是禁止访问网站文件的功能。
      所以Robots.txt文件很重要，你也可以看看别人的Robots.txt 。例如懒鸟飞的robots.txt文件内容如下图：

1、如何屏蔽搜索引擎？使用robots.txt需要注意的几点地方

（1）指令区分大小写，忽略未知指令好像还是不支持中文等非英文字符，如需添加中文地址指令，请先转码（UTF-8和GBK会有不同的转码结果）。
（2）每一行代表一个指令，空白和隔行会被忽略；
（3）“#”号后的字符参数会被忽略；
（4）User-agent定义搜索引擎爬取程序的（指定搜索引擎的爬取程序），他不能单独使用，要配合其它2个语法中的一个使用。
Disallow:/ 禁止允许
Allow: /
Allow要和Disallow一起使用。
（5）可以写入sitemap文件的链接，方便搜索引擎蜘蛛爬行整站内容。
（6）尽量少用Allow指令，因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
想了解更多关于robots.txt的“标准化”说明，可以查看robots.txt官网和Google关于robots.txt的说明页。

2、WordPress网站如何写robots.txt？

最简单的这样写就行了。

User-agent:*

Disallow:/wp-admin

Disallow:/wp-content/plugins

Disallow:/wp-content/themes

Disallow:/wp-includes

Disallow:/?s=

Sitemap:http//www.yourdomain.com/sitemap.xml

Sitemap:http//www.yourdomain.com/sitemap_baidu.html

3、robots.txt的写法规则

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
　　Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录　
　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
　　Disallow: /*?* 禁止访问网站中所有的动态页面
　　Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
　　Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
　　User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
　　Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录
　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
　　Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例

上一篇：域名、空间、网站程序的选择（网站三要素）

下一篇：如何选择目标关键词

懒鸟飞：帝国cms模板专业分享平台，新域名：lanniaofei.com

Robots.txt的用途是什么

1、如何屏蔽搜索引擎？使用robots.txt需要注意的几点地方

2、WordPress网站如何写robots.txt？

3、robots.txt的写法规则

扫码添加客服QQ