如何通过robots协议屏蔽搜索引擎抓取网站内容

2022年 10月 12日下午9:04 • 综合资讯 • 阅读 380

如何通过robots协议屏蔽搜索引擎抓取网站内容

有时候有些页面访问消耗性能比较高不想让搜索引擎抓取，可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots-agreement

Robots协议写法说明

User-agent: 这里的代表的所有的搜索引擎种类，*是一个通配符；

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录；

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录；

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录；

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)；

Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址；

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片；

Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件；

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录；

Allow: /tmp 这里定义是允许爬寻tmp的整个目录；

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL；

Allow: .gif$ 允许抓取网页和gif格式图片；

Sitemap: 网站地图地址告诉爬虫这个页面是网站地图；

Robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分：

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)：

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问:

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问:

User-agent: Baiduspider
Allow:/

本文来自投稿，不代表前沿区块链立场，如若转载，请注明出处：https://www.xjxtj.com/929.html

赞 (0)

0

如何判断一个词的搜索指数是真的还是刷的？

上一篇 2022年 10月 12日下午9:04

什么是图文并茂?图文并茂对SEO优化有什么好处

下一篇 2022年 10月 12日下午9:05

综合资讯

浅谈白帽SEO思维应该是什么样的呢？

2022年 10月 11日 339
综合资讯

网站SEO关键词排名的内容和误区问题，网站的SEO的核心问题是什么?

2022年 10月 10日 437
综合资讯

浅谈网站做了HTTPS改造之后都有哪些影响

2022年 10月 9日 691
综合资讯

网站如何判断一个词的搜索指数是真的还是刷的？

2022年 10月 13日 362
综合资讯

HackerNoon专访孙宇晨：重视透明合规，行业会继续走向成熟

2023年 1月 29日 426
综合资讯

百度搜索向百度站内搜索转变的今天继续做SEO是否还有前途？

2022年 10月 10日 325