robots.txt 文件说明

时间：2022-11-21 16:48:33浏览次数：58

标签：文件 robots Disallow 爬取蜘蛛搜索引擎 txt html 页面

robots其实就是指Robots协议，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时，第一个访问的文件就是robots.txt文件，如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。

文件包含内容：

User-agent: 搜索引擎蜘蛛的名称
Disallow: 既要拦截的部分
Allow : 允许搜索的部分
Sitemap: 网站地图

作用：

1 设置禁止搜索引擎访问的页面，如后台页面，搜索结果页面，静态页面，重复的页面。低质量 或者不希望被收录的网页。
2 告诉搜索引擎网站地图在哪
3 如果不设置，，会使用搜索引擎匹配到很多无用的信息，会降低该网站的权重，影响该网站的排行等

示例

    一、
　　User-agent: *（定义所有搜索引擎）
　　User-agent: Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
　　User-agent: Baiduspider  （定义百度，只允许百度蜘蛛爬取）

　　不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

　　二、Disallow:（用来定义禁止蜘蛛爬取的页面或目录）

　　示例：
　　　　Disallow: /（禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下）
　　　　Disallow: /admin （禁止蜘蛛爬取admin目录）
　　　　Disallow: /abc.html （禁止蜘蛛爬去abc.html页面）
　　　　Disallow: /help.html （禁止蜘蛛爬去help.html页面）
        Disallow: /search?1.html （？禁止这个开头的页面）

　　三、Allow:（用来定义允许蜘蛛爬取的页面或子目录）
　　示例：
　　　　Allow: /admin/test/（允许蜘蛛爬取admin下的test目录）
　　　　Allow: /admin/abc.html（允许蜘蛛爬去admin目录中的abc.html页面）

　　两个通配符如下：

　　四、匹配符 “$”

　　　　$ 通配符：匹配URL结尾的字符

　　五、通配符 “*”

　　　　* 通配符：匹配0个或多个任意字符
        Disallow: *-*  屏蔽全站url内带有的 - 的链接

标签：文件,robots,Disallow,爬取,蜘蛛,搜索引擎,txt,html,页面
From： https://www.cnblogs.com/lccsdncnblogs/p/16911852.html

window，一键搭建文件服务器
之前局域网内共享文件，总是选用飞秋，或者开放win文件共享（无密码坑挺多）等方式，最近静思极动；1.本机有python环境，2.进入要共享的文件,3.地址栏输入：cmd，4.进入dos交互页，输入p......
#littlefs原理分析#[五]文件读写
作者：蒋卫峰李涛前言上一篇文章介绍了littlefs中的目录操作，这一篇文章则将介绍littlefs中的文件读写操作。本文会根据文件的存储类型进行介绍，即inline文件和outline文件，......
Linux 查找一批文件并计算总大小
在Linux系统中，一个目录下有很多文件，但是我们只想统计其中一些文件的大小总和，你可以这么做find/data/logs/ftt-name"ftt_2020*.log"|xargsdu-ch主要用的是fin......
多种语言---安全的文件操作示例
文件校验方式读取或者写入文件时必须文件进行校验，防止软连接攻击或者提权攻击，如果校验后再打开文件操作，很容易被构造条件竞争攻击。因此较安全的方式是先将文件打开，然后再......
linux怎么进入文件夹
Linux中进入目录下文件夹win系统中直接cd+空格+文件夹名Linux下cd+空格+./+文件名其中句点表示“当前目录”除非在根目录不加，或者把路径写全用绝对路径进入L......
docker-entrypoint.sh 文件的用处
参考出处很多著名库的Dockerfile文件中，通常都是ENTRYPOINT字段会是这样：ENTRYPOINT["docker-entrypoint.sh"]这里我们参考分析下MySQL的Dockerfile文件，来认识下d......
arcgis合并多个shp文件
1.splitbyattribute.先按照属性分成多个多边形shp2.intersect.求每个多边形shp所包含的点要素3.union还是merge？.把点要素合并。 >>4.selectbylocation. ......
Linux磁盘被占用找不到占用文件，磁盘空间没释放
1、用df检查发现磁盘占用过高 [root@VM_0_15_centos~]#df-h2、用du检查发现各目录占用的空间都很少,有约10G的空间找不到了 [root@VM_0_15_centos~]#du-ah......
java File类与文件输入/输出流:FileInputStream与FileOutputStream
javaFile类与文件输入/输出流File类File类是java.io包中唯一代表磁盘文件本身的类，该类主要用于文件和目录的创建、文件的查找和文件的删除等。文件的创建与删除1.Fi......
17.5 稀疏调拨的内存映射文件--《Windows核心编程》
原文链接：https://www.likecs.com/show-306421749.html，原文中代码是C++MFC程序，更详细。本文是C语言测试代码。（1）稀疏文件(SparseFile)定义指的是文件中出现大量的0数据，这......

robots.txt 文件说明

文件包含内容：

相关文章

赞助商

阅读排行