首页 > 其他分享 >robots.txt 文件说明

robots.txt 文件说明

时间:2022-11-21 16:48:33浏览次数:53  
标签:文件 robots Disallow 爬取 蜘蛛 搜索引擎 txt html 页面

robots其实就是指Robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时,第一个访问的文件就是robots.txt文件,如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。

文件包含内容:

User-agent: 搜索引擎蜘蛛的名称
Disallow: 既要拦截的部分
Allow : 允许搜索的部分
Sitemap: 网站地图

 

作用:

1 设置禁止搜索引擎访问的页面,如后台页面,搜索结果页面,静态页面,重复的页面。低质量 或者不希望被收录的网页。
2 告诉搜索引擎网站地图在哪
3 如果不设置,,会使用搜索引擎匹配到很多无用的信息,会降低该网站的权重,影响该网站的排行等

 

示例

    一、
  User-agent: *(定义所有搜索引擎)
  User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
  User-agent: Baiduspider  (定义百度,只允许百度蜘蛛爬取)

  不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

  二、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)

  示例:
    Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
    Disallow: /admin (禁止蜘蛛爬取admin目录)
    Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
    Disallow: /help.html (禁止蜘蛛爬去help.html页面)
        Disallow: /search?1.html (?禁止这个开头的页面)

  三、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
  示例:
    Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
    Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)

  两个通配符如下:

  四、匹配符 “$”

    $ 通配符:匹配URL结尾的字符

  五、通配符 “*”

    * 通配符:匹配0个或多个任意字符
        Disallow: *-*  屏蔽全站url内带有的 - 的链接

 

标签:文件,robots,Disallow,爬取,蜘蛛,搜索引擎,txt,html,页面
From: https://www.cnblogs.com/lccsdncnblogs/p/16911852.html

相关文章

  • window,一键搭建文件服务器
    之前局域网内共享文件,总是选用飞秋,或者开放win文件共享(无密码坑挺多)等方式,最近静思极动;1.本机有python环境,2.进入要共享的文件,3.地址栏输入:cmd,4.进入dos交互页,输入p......
  • #littlefs原理分析#[五]文件读写
    作者:蒋卫峰李涛前言上一篇文章介绍了littlefs中的目录操作,这一篇文章则将介绍littlefs中的文件读写操作。本文会根据文件的存储类型进行介绍,即inline文件和outline文件,......
  • Linux 查找一批文件并计算总大小
    在Linux系统中,一个目录下有很多文件,但是我们只想统计其中一些文件的大小总和,你可以这么做find/data/logs/ftt-name"ftt_2020*.log"|xargsdu-ch主要用的是fin......
  • 多种语言---安全的文件操作示例
    文件校验方式读取或者写入文件时必须文件进行校验,防止软连接攻击或者提权攻击,如果校验后再打开文件操作,很容易被构造条件竞争攻击。因此较安全的方式是先将文件打开,然后再......
  • linux怎么进入文件夹
    Linux中进入目录下文件夹win系统中直接cd+空格+文件夹名Linux下cd+空格+./+文件名其中句点表示“当前目录”除非在根目录不加,或者把路径写全用绝对路径进入L......
  • docker-entrypoint.sh 文件的用处
    参考出处很多著名库的Dockerfile文件中,通常都是ENTRYPOINT字段会是这样:ENTRYPOINT["docker-entrypoint.sh"]这里我们参考分析下MySQL的Dockerfile文件,来认识下d......
  • arcgis合并多个shp文件
    1.splitbyattribute.先按照属性分成多个多边形shp2.intersect.求每个多边形shp所包含的点要素3.union还是merge?.把点要素合并。 >>4.selectbylocation.  ......
  • Linux磁盘被占用找不到占用文件,磁盘空间没释放
    ​ 1、用df检查发现磁盘占用过高 [root@VM_0_15_centos~]#df-h2、用du检查发现各目录占用的空间都很少,有约10G的空间找不到了 [root@VM_0_15_centos~]#du-ah......
  • java File类与文件输入/输出流:FileInputStream与FileOutputStream
    javaFile类与文件输入/输出流File类File类是java.io包中唯一代表磁盘文件本身的类,该类主要用于文件和目录的创建、文件的查找和文件的删除等。文件的创建与删除1.Fi......
  • 17.5 稀疏调拨的内存映射文件--《Windows核心编程》
    原文链接:https://www.likecs.com/show-306421749.html,原文中代码是C++MFC程序,更详细。本文是C语言测试代码。(1)稀疏文件(SparseFile)定义指的是文件中出现大量的0数据,这......