robots.txt写法大全和robots.txt语法的作用

时间：2024-09-27 16:47:57浏览次数：7

标签：robots 爬虫搜索引擎 Disallow txt example 大全

robots.txt 是一种用于与搜索引擎对话的协议文件，它告诉搜索引擎的爬虫（也称为蜘蛛或机器人）哪些页面或者文件是可以被抓取的，哪些是不可以被抓取的。这对于网站管理员来说非常重要，因为它可以帮助控制搜索引擎如何索引网站的内容。

`robots.txt` 文件的基本语法：

User-agent:

定义规则适用于哪个用户代理（即搜索引擎爬虫）。* 表示所有已知的爬虫。
plaintext User-agent: *

Disallow:

告诉爬虫不要访问指定的URL或目录。
plaintext Disallow: /example
上面这条规则意味着任何以 /example 开头的URL都不应该被访问。

Allow:

允许爬虫访问某个特定的URL或目录，即使它之前已经被Disallow指令排除在外。
plaintext Disallow: /example Allow: /example/special
上述例子表示虽然 /example 被禁止访问，但 /example/special 是允许访问的。

Sitemap:

指向网站地图文件的位置，帮助搜索引擎更快地找到网站地图。
plaintext Sitemap: http://www.example.com/sitemap.xml

示例：

一个完整的robots.txt文件可能看起来像这样：

User-agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public
Sitemap: http://www.example.com/sitemap.xml

在这个例子中，所有的搜索引擎爬虫都会被禁止访问/private/目录下的所有内容以及/temp/目录下的大部分内容，但是/temp/public是被允许访问的。此外，还指定了一个网站地图的位置。

注意事项：

robots.txt 文件必须位于网站的根目录下。
如果你想允许所有的爬虫访问所有内容，只需放置一个空的robots.txt文件即可。
robots.txt 文件不保证所有搜索引擎都会遵守其规则，但它通常会被大多数主要的搜索引擎遵守。
不要依赖robots.txt来保护敏感信息，因为爬虫可能会忽略规则，而且即使不被搜索引擎索引，这些页面仍然可以通过直接访问URL的方式被看到。
如果一个目录或文件已经被搜索引擎索引了，那么即使之后你添加了Disallow规则，也需要一段时间才能从索引中移除这些条目。

标签：robots,爬虫,搜索引擎,Disallow,txt,example,大全
From： https://www.cnblogs.com/hwrex/p/18436078

SpringBoot注解大全（详细）
1.@ActiveProfiles用来声明活动的profile–@ActiveProfiles(“prod”(这个prod定义在配置类中))@RunWith(SpringRunner.class)@SpringBootTest@ActiveProfiles("test")publicclassMyApplicationTests{@TestpublicvoidcontextLoads(){......
板子大全
数据结构01trieconstintM=30;constintN=2e5+5;intn,a[N];structTrie{ intt[N*M][2],ed[N*M],dp[N*M],tot; inlinevoidclear(void){ for(inti=0;i<=tot;i++)t[i][0]=t[i][1]=ed[i]=dp[i]=0; tot=0; } Trie(void......
【干货】传统FTP不香了吗？FTP替代方案大全在这里
FTP为何能风靡这么多年？‌‌FTP（FileTransferProtocol，文件传输协议）是一种用于在网络上进行文件传输的标准协议。FTP协议与操作系统无关，任何操作系统上的程序只要符合FTP协议，就可以相互传输数据。这么看起来，FTP还是挺好用的，为什么这篇文章咱们要说FTP替代方案呢？别急，咱们一个个来解......
Excel常用函数大全
Excel常用函数介绍与示例应用在Excel中，函数是进行数据处理和分析的强大工具。对于新手来说，掌握一些基本的函数使用方法能够大大提升工作效率。以下是一份通俗易懂、适合新手的Excel函数使用方法总结：1.求和函数（SUM）功能：将选定区域的所有数值相加。语法：SUM(range)，其中range为要求和......
2000-2012年各地级市市长特征信息数据/市长特征信息大全数据
2000-2012年各地级市市长特征信息数据1、时间：2000-2012年2、来源：百度搜索手工整理3、指标：省级政区代码、省级政区名称、地市级政区代码、地市级政区名称、年份、市长姓名、出生年份、出生月份、籍贯省份代码、籍贯省份名称、籍贯地市代码、籍贯地市名称、性别、民族、教育、......
Java面试题大全（全网最全，持续更新）初级（2）
1.基础语法1.1.Java的数据类型有哪些？Java有两种数据类型：基本数据类型（PrimitiveTypes）：包括byte、short、int、long、float、double、char、boolean。引用数据类型（ReferenceTypes）：包括类、接口、数组等。1.2.final关键字有什么作用？final关键字可以用来修饰类、方......
[20240920]跟踪library cache lock library cache pin使用gdb.txt
[20240920]跟踪librarycachelocklibrarycachepin使用gdb.txt--//前一阵子，写的使用gdb跟踪librarycachelocklibrarycachepin的脚本有一个小问题，无法获得lockaddress以及pinaddress--//地址,有一点点小缺陷，尝试修改完善看看。--//按照https://nenadnoveljic.com/blog/tr......
思科交换机命令大全，网络工程师必收藏！
基本的命令行界面（CLI）导航思科交换机的CLI界面分为以下几种模式，每种模式提供不同的命令集：用户模式（UserEXECMode）：此模式提供有限的查看命令，不能进行配置操作。用户模式的提示符通常以>结尾。例如：Switch>特权模式（PrivilegedEXECMode）：此模式提供更多的监控和配置命......
eclispe的快捷键大全
Ctrl+O快速显示OutLineCtrl+T快速显示当前类的继承结构Ctrl+W关闭当前EditerCtrl+K参照选中的Word快速定位到下一个Ctrl+E快速显示当前Editer的下拉列表(如果当前页面没有显示的用黑体表示)Ctrl+/(小键盘)折叠当前类中的所有代码Ctrl+×(小键盘)展开当前类中的所有代......
Java多线程大全
文章目录简介多线程使用场景后台任务：多线程的基本概念Java程序是如何运行的？线程的创建和启动1、线程的创建和启动1.1、继承Thread类1.2、实现Runnable接口2、线程的调度与控制2.1、线程优先级2.2、Thread.sleep3、Thread中几个方法、......

robots.txt写法大全和robots.txt语法的作用

`robots.txt` 文件的基本语法：

User-agent:

Disallow:

Allow:

Sitemap:

示例：

注意事项：

相关文章

赞助商

阅读排行

robots.txt写法大全和robots.txt语法的作用

robots.txt 文件的基本语法：

User-agent:

Disallow:

Allow:

Sitemap:

示例：

注意事项：

相关文章

赞助商

阅读排行

`robots.txt` 文件的基本语法：