1、
robots.txt
文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)
文件路径:
网站根目录/robots.txt
或者 public/robots.txt
关键指令解释:
User-agent
: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*
代表所有爬虫。
Disallow
: 禁止访问的路径,/
代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。
Allow
: 明确允许访问的路径(仅用于与 Disallow
搭配)。
Sitemap
: 提供站点地图的 URL
。
1、允许所有爬虫爬取所有内容:
写法一:
User-agent: *
Disallow:
写法二:
User-agent: *
Allow:/
2、禁止所有爬虫访问整个网站:
User-agent: *
Disallow: /
3、禁止所有爬虫访问特定目录或文件:
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html
4、允许所有爬虫访问某个目录或文件,但禁止其他部分:
User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html
标签:简要,爬虫,agent,robots,User,Disallow,txt
From: https://www.cnblogs.com/520future/p/18420301