通过robots协议屏蔽搜索引擎抓取网站内容

2022年 10月 13日下午7:44 • 综合资讯 • 阅读 307

通过robots协议屏蔽搜索引擎抓取网站内容

有时候有些页面访问消耗性能比较高不想让搜索引擎抓取，可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots-agreement-1

Robots协议写法说明

User-agent: 这里的代表的所有的搜索引擎种类，*是一个通配符；

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录；

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录；

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录；

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)；

Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址；

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片；

Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件；

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录；

Allow: /tmp 这里定义是允许爬寻tmp的整个目录；

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL；

Allow: .gif$ 允许抓取网页和gif格式图片；

Sitemap: 网站地图地址告诉爬虫这个页面是网站地图；

Robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分：

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)：

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问:

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问:

User-agent: Baiduspider
Allow:/

本文来自投稿，不代表前沿区块链立场，如若转载，请注明出处：https://www.xjxtj.com/991.html

赞 (0)

0

网站如何判断一个词的搜索指数是真的还是刷的？

上一篇 2022年 10月 13日下午7:44

网站robots与nofollow的区别是什么?怎样使用才算正确?

下一篇 2022年 10月 13日下午7:46

综合资讯

个人新站刚开始百度抓取量少是什么原因呢？

2022年 10月 10日 370
综合资讯

谈一谈百度眼中的优质站点是什么样？

2022年 10月 10日 497
综合资讯

分析一个网站从SEO的角度需要分析哪些数据？

2022年 10月 9日 313
综合资讯

浅谈最近百度不收录反而掉索引的一些个人看法

2022年 10月 11日 371
综合资讯

网站页面什么是伪静态？伪静态与真静态有什么区别？

2022年 10月 10日 418
综合资讯

如何看待站长工具SEO综合查询出现头条权重

2022年 10月 11日 517