首页 > 其他分享 >robots.txt写法大全和robots.txt语法的作用

robots.txt写法大全和robots.txt语法的作用

时间:2024-09-27 16:47:57浏览次数:7  
标签:robots 爬虫 搜索引擎 Disallow txt example 大全

robots.txt 是一种用于与搜索引擎对话的协议文件,它告诉搜索引擎的爬虫(也称为蜘蛛或机器人)哪些页面或者文件是可以被抓取的,哪些是不可以被抓取的。这对于网站管理员来说非常重要,因为它可以帮助控制搜索引擎如何索引网站的内容。

robots.txt 文件的基本语法:

User-agent:

  • 定义规则适用于哪个用户代理(即搜索引擎爬虫)。* 表示所有已知的爬虫。

    plaintext   User-agent: *

Disallow:

  • 告诉爬虫不要访问指定的URL或目录。

    plaintext   Disallow: /example

    上面这条规则意味着任何以 /example 开头的URL都不应该被访问。

Allow:

  • 允许爬虫访问某个特定的URL或目录,即使它之前已经被Disallow指令排除在外。

    plaintext   Disallow: /example Allow: /example/special

    上述例子表示虽然 /example 被禁止访问,但 /example/special 是允许访问的。

Sitemap:

  • 指向网站地图文件的位置,帮助搜索引擎更快地找到网站地图。

    plaintext   Sitemap: http://www.example.com/sitemap.xml

示例:

一个完整的robots.txt文件可能看起来像这样:

User-agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public
Sitemap: http://www.example.com/sitemap.xml

在这个例子中,所有的搜索引擎爬虫都会被禁止访问/private/目录下的所有内容以及/temp/目录下的大部分内容,但是/temp/public是被允许访问的。此外,还指定了一个网站地图的位置。

注意事项:

  • robots.txt 文件必须位于网站的根目录下。
  • 如果你想允许所有的爬虫访问所有内容,只需放置一个空的robots.txt文件即可。
  • robots.txt 文件不保证所有搜索引擎都会遵守其规则,但它通常会被大多数主要的搜索引擎遵守。
  • 不要依赖robots.txt来保护敏感信息,因为爬虫可能会忽略规则,而且即使不被搜索引擎索引,这些页面仍然可以通过直接访问URL的方式被看到。
  • 如果一个目录或文件已经被搜索引擎索引了,那么即使之后你添加了Disallow规则,也需要一段时间才能从索引中移除这些条目。

标签:robots,爬虫,搜索引擎,Disallow,txt,example,大全
From: https://www.cnblogs.com/hwrex/p/18436078

相关文章

  • SpringBoot注解大全(详细)
    1.@ActiveProfiles用来声明活动的profile–@ActiveProfiles(“prod”(这个prod定义在配置类中))@RunWith(SpringRunner.class)@SpringBootTest@ActiveProfiles("test")publicclassMyApplicationTests{@TestpublicvoidcontextLoads(){......
  • 板子大全
    数据结构01trieconstintM=30;constintN=2e5+5;intn,a[N];structTrie{ intt[N*M][2],ed[N*M],dp[N*M],tot; inlinevoidclear(void){ for(inti=0;i<=tot;i++)t[i][0]=t[i][1]=ed[i]=dp[i]=0; tot=0; } Trie(void......
  • 【干货】传统FTP不香了吗?FTP替代方案大全在这里
    FTP为何能风靡这么多年?‌‌FTP(FileTransferProtocol,文件传输协议)是一种用于在网络上进行文件传输的标准协议。FTP协议与操作系统无关,任何操作系统上的程序只要符合FTP协议,就可以相互传输数据。这么看起来,FTP还是挺好用的,为什么这篇文章咱们要说FTP替代方案呢?别急,咱们一个个来解......
  • Excel常用函数大全
    Excel常用函数介绍与示例应用在Excel中,函数是进行数据处理和分析的强大工具。对于新手来说,掌握一些基本的函数使用方法能够大大提升工作效率。以下是一份通俗易懂、适合新手的Excel函数使用方法总结:1.求和函数(SUM)功能:将选定区域的所有数值相加。语法:SUM(range),其中range为要求和......
  • 2000-2012年各地级市市长特征信息数据/市长特征信息大全数据
    2000-2012年各地级市市长特征信息数据1、时间:2000-2012年2、来源:百度搜索手工整理3、指标:省级政区代码、省级政区名称、地市级政区代码、地市级政区名称、年份、市长姓名、出生年份、出生月份、籍贯省份代码、籍贯省份名称、籍贯地市代码、籍贯地市名称、性别、民族、教育、......
  • Java面试题大全(全网最全,持续更新)初级(2)
    1.基础语法1.1.Java的数据类型有哪些?Java有两种数据类型:基本数据类型(PrimitiveTypes):包括byte、short、int、long、float、double、char、boolean。引用数据类型(ReferenceTypes):包括类、接口、数组等。1.2.final关键字有什么作用?final关键字可以用来修饰类、方......
  • [20240920]跟踪library cache lock library cache pin使用gdb.txt
    [20240920]跟踪librarycachelocklibrarycachepin使用gdb.txt--//前一阵子,写的使用gdb跟踪librarycachelocklibrarycachepin的脚本有一个小问题,无法获得lockaddress以及pinaddress--//地址,有一点点小缺陷,尝试修改完善看看。--//按照https://nenadnoveljic.com/blog/tr......
  • 思科交换机命令大全,网络工程师必收藏!
    基本的命令行界面(CLI)导航思科交换机的CLI界面分为以下几种模式,每种模式提供不同的命令集:用户模式(UserEXECMode):此模式提供有限的查看命令,不能进行配置操作。用户模式的提示符通常以>结尾。例如:Switch>特权模式(PrivilegedEXECMode):此模式提供更多的监控和配置命......
  • eclispe的快捷键大全
    Ctrl+O快速显示OutLineCtrl+T快速显示当前类的继承结构Ctrl+W关闭当前EditerCtrl+K参照选中的Word快速定位到下一个Ctrl+E快速显示当前Editer的下拉列表(如果当前页面没有显示的用黑体表示)Ctrl+/(小键盘)折叠当前类中的所有代码Ctrl+×(小键盘)展开当前类中的所有代......
  • Java多线程大全
    文章目录简介多线程使用场景后台任务:多线程的基本概念Java程序是如何运行的?线程的创建和启动1、线程的创建和启动1.1、继承Thread类1.2、实现Runnable接口2、线程的调度与控制2.1、线程优先级2.2、Thread.sleep3、Thread中几个方法、......