首页 > 其他分享 >网站robots.txt文件简要说明

网站robots.txt文件简要说明

时间:2024-09-19 12:02:46浏览次数:7  
标签:简要 爬虫 agent robots User Disallow txt

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)

文件路径:

网站根目录/robots.txt 或者 public/robots.txt

关键指令解释:

User-agent: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*代表所有爬虫。

Disallow: 禁止访问的路径,/代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径(仅用于与 Disallow 搭配)。

Sitemap: 提供站点地图的 URL

1、允许所有爬虫爬取所有内容:

写法一:

User-agent: *
Disallow:

写法二:

User-agent: *
Allow:/

2、禁止所有爬虫访问整个网站:

User-agent: *
Disallow: /

3、禁止所有爬虫访问特定目录或文件:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

4、允许所有爬虫访问某个目录或文件,但禁止其他部分:

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html

标签:简要,爬虫,agent,robots,User,Disallow,txt
From: https://www.cnblogs.com/520future/p/18420301

相关文章

  • [AGC004E] Salvage Robots
    题意给定一个网格图,图上有若干个机器人和一个出口。每次操作让所有机器人向上、下、左、右移动一格,若有机器人走出边界,则直接移除该机器人,若有机器人走到出口,则回收该机器人并移除。问可以回收到的机器人的最大数量。\(n\le100\)。Sol首先套路地,考虑把移动所有机器人......
  • 图像生成领域老牌的GAN模型简要回顾
    ......
  • 用python写一段代码:读取一张图片中的所有颜色信息,并按照占比大小,从大到小依次列出颜色
    fromPILimportImagefromcollectionsimportCounterimportnumpyasnpdefsave_colors_to_file(image_path,output_file):#打开图片文件image=Image.open(image_path)image=image.convert('RGB')#将图片转换为numpy数组pixels=np.ar......
  • 快速生码写入txt
    printCodes(mode,len){//1:"上单码模式",//2:"下单码模式",//3:"双码模式",//4:"上2下1码模式",//5:"上1下2码模式",//6:"四码模式",letcode='&#......
  • nvm下载node版本Could not retrieve https://nodejs.org/dist/latest/SHASUMS256.txt.
    1.使用nvm安装node版本的时候报错Couldnotretrievehttps://nodejs.org/dist/latest/SHASUMS256.txt.Get"https://nodejs.org/dist/latest/SHASUMS256.txt":dialtcp104.20.22.46:443:i/otimeout原因:可能是远程连接被关闭的问题,这是由于国内网络限制导致的,解决办法:找到sett......
  • [20240911]查看超长视图的定义2.txt
    [20240911]查看超长视图的定义2.txt--//昨天看了链接:https://www.anbob.com/archives/8295.html,提供了另外的方式获得超长定义试图的长文本。--//我重复验证看看.1.环境:SYS@book>@ver2==============================PORT_STRING                  :x86_6......
  • [20240912]记录使用tnsping遇到的问题.txt
    [20240912]记录使用tnsping遇到的问题.txt--//tnsping用来检测数据库是否连接存在许多局限性,记录自己在使用tnsping遇到的问题.1.环境:--//关闭数据库开启监听.SYS@book>shutdownimmediate;Databaseclosed.Databasedismounted.ORACLEinstanceshutdown.--//服务端监听配置......
  • Mac 上有哪些好用的 txt 纯文本编辑器?
    在Mac上,有很多优秀的纯文本编辑器供用户选择,这些编辑器不仅功能强大,而且界面友好,非常适合编写代码、管理笔记或是进行简单的文本处理。如果你想找一款第三方txt纯文本编辑器,用来代替默认的「文本编辑」,可以看看下面这三个。UltraEditUltraEdit自称是「Mac上最好的文本......
  • CMakeLists.txt 和 Makefile
    CMakeLists.txt和Makefile都是用于自动化编译和构建软件项目的配置文件,但它们在构建系统中扮演不同的角色,并且使用不同的构建工具。CMakeLists.txtCMakeLists.txt 文件是CMake构建系统的配置文件。CMake是一个跨平台的自动化构建系统,它使用 CMakeLists.txt 文件来生......
  • 谈谈 Qt 程序安装包的大小,以及简要打包指南
    https://www.jianshu.com/p/0dd884a43de6 本文是水木社区KDE与Qt编程技术版版主的文章,我觉得写的很好,就转载过来了,原文地址:http://hgoldfish.com/blogs/article/103/)经常看到网上有些论调说Qt程序无比庞大,甚至拿.NET程序来比,说Qt程序打包以后跟.NET安装包差不多大。......