网站robots.txt文件简要说明

时间：2024-09-19 12:02:46浏览次数：7

标签：简要爬虫 agent robots User Disallow txt

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取，哪些页面不能爬取的。
2、robots.txt（统一小写）

文件路径：

网站根目录/robots.txt 或者 public/robots.txt

关键指令解释：

User-agent: 指定搜索引擎爬虫（如 Googlebot、Bingbot 等），*代表所有爬虫。

Disallow: 禁止访问的路径，/代表根目录，后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径（仅用于与 Disallow 搭配）。

Sitemap: 提供站点地图的 URL。

1、允许所有爬虫爬取所有内容：

写法一：

User-agent: *
Disallow:

写法二：

User-agent: *
Allow:/

2、禁止所有爬虫访问整个网站：

User-agent: *
Disallow: /

3、禁止所有爬虫访问特定目录或文件：

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

4、允许所有爬虫访问某个目录或文件，但禁止其他部分：

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html

标签：简要,爬虫,agent,robots,User,Disallow,txt
From： https://www.cnblogs.com/520future/p/18420301

[AGC004E] Salvage Robots
题意给定一个网格图，图上有若干个机器人和一个出口。每次操作让所有机器人向上、下、左、右移动一格，若有机器人走出边界，则直接移除该机器人，若有机器人走到出口，则回收该机器人并移除。问可以回收到的机器人的最大数量。\(n\le100\)。Sol首先套路地，考虑把移动所有机器人......
图像生成领域老牌的GAN模型简要回顾
......
用python写一段代码：读取一张图片中的所有颜色信息，并按照占比大小，从大到小依次列出颜色
fromPILimportImagefromcollectionsimportCounterimportnumpyasnpdefsave_colors_to_file(image_path,output_file):#打开图片文件image=Image.open(image_path)image=image.convert('RGB')#将图片转换为numpy数组pixels=np.ar......
快速生码写入txt
printCodes(mode,len){//1:"上单码模式",//2:"下单码模式",//3:"双码模式",//4:"上2下1码模式",//5:"上1下2码模式",//6:"四码模式",letcode='&#......
nvm下载node版本Could not retrieve https://nodejs.org/dist/latest/SHASUMS256.txt.
1.使用nvm安装node版本的时候报错Couldnotretrievehttps://nodejs.org/dist/latest/SHASUMS256.txt.Get"https://nodejs.org/dist/latest/SHASUMS256.txt":dialtcp104.20.22.46:443:i/otimeout原因：可能是远程连接被关闭的问题，这是由于国内网络限制导致的，解决办法：找到sett......
[20240911]查看超长视图的定义2.txt
[20240911]查看超长视图的定义2.txt--//昨天看了链接:https://www.anbob.com/archives/8295.html,提供了另外的方式获得超长定义试图的长文本。--//我重复验证看看.1.环境:SYS@book>@ver2==============================PORT_STRING :x86_6......
[20240912]记录使用tnsping遇到的问题.txt
[20240912]记录使用tnsping遇到的问题.txt--//tnsping用来检测数据库是否连接存在许多局限性,记录自己在使用tnsping遇到的问题.1.环境:--//关闭数据库开启监听.SYS@book>shutdownimmediate;Databaseclosed.Databasedismounted.ORACLEinstanceshutdown.--//服务端监听配置......
Mac 上有哪些好用的 txt 纯文本编辑器？
在Mac上，有很多优秀的纯文本编辑器供用户选择，这些编辑器不仅功能强大，而且界面友好，非常适合编写代码、管理笔记或是进行简单的文本处理。如果你想找一款第三方txt纯文本编辑器，用来代替默认的「文本编辑」，可以看看下面这三个。UltraEditUltraEdit自称是「Mac上最好的文本......
CMakeLists.txt 和 Makefile
CMakeLists.txt和Makefile都是用于自动化编译和构建软件项目的配置文件，但它们在构建系统中扮演不同的角色，并且使用不同的构建工具。CMakeLists.txtCMakeLists.txt 文件是CMake构建系统的配置文件。CMake是一个跨平台的自动化构建系统，它使用 CMakeLists.txt 文件来生......
谈谈 Qt 程序安装包的大小，以及简要打包指南
https://www.jianshu.com/p/0dd884a43de6 本文是水木社区KDE与Qt编程技术版版主的文章，我觉得写的很好，就转载过来了，原文地址：http://hgoldfish.com/blogs/article/103/）经常看到网上有些论调说Qt程序无比庞大，甚至拿.NET程序来比，说Qt程序打包以后跟.NET安装包差不多大。......