学习笔记：robots.txt文件

时间：2024-08-29 22:48:28浏览次数：9

标签：爬虫网站 robots 笔记搜索引擎管理员 txt

1.1 介绍

robots.txt文件是一种用于指导搜索引擎爬虫在网站上哪些页面可以被抓取，哪些页面不应该被抓取的文本文件。这个文件通常放置在网站的根目录下。

1.2 由来

robots.txt标准最早出自1994年，由荷兰的网络管理员和搜索引擎专家Martijn Koster编写。最初称为"Robots Exclusion"标准。

1.3 作用

提供网站管理员一种方式，使他们能够指导搜索引擎爬虫如何访问他们的网站。
协助网站管理者更好地控制他们网站上的信息被搜索引擎检索的方式。

1.4 语法示例

User-agent: *
Disallow: /private/
Allow: /public/

User-agent: * 表示这个规则适用于所有的爬虫。
Disallow: /private/ 表示不允许爬虫访问/private/路径。
Allow: /public/ 表示允许爬虫访问/public/路径。

1.5 创建和维护

由网站的管理员或所有者创建和维护。
位于网站的根目录下。

1.6 遵循与忽略

大多数搜索引擎通常会遵循robots.txt文件中的规定，但并非所有爬虫都遵循这个协议。
一些不诚实或恶意的爬虫可能会选择忽略robots.txt文件中的规则。

1.7 强制力

robots.txt协议本身并不具有强制力。
遵守这个协议是出于各方的自愿和合作。

1.8 安全考虑

对于一些不守规矩的爬虫，网站管理员可能需要考虑其他更强大的安全措施来保护他们的网站免受不受欢迎的访问。

总体来说，robots.txt仍然是网络管理中一个有用的工具，用于指导搜索引擎爬虫的行为，但它并非是绝对可靠的安全措施。在考虑网站安全性时，网站管理员可能需要综合考虑其他手段。

标签：爬虫,网站,robots,笔记,搜索引擎,管理员,txt
From： https://www.cnblogs.com/DanielSong/p/18387662

CMake构建学习笔记11-minizip库的构建
准确来说，minizip其实是zlib提供的辅助工具，位于zlib库的contrib文件夹内。minizip提供了更为高级一点的接口，能直接操作文件进行压缩。不过，有点麻烦的是这个工具并没有提供CMake构建的方式。那么可以按照构建giflib的方式，自己组织CMakeList.txt，正好这个项目的代码量并不多。另一个......
计算机网络考研手写笔记_应用层
1网络应用模型1）应用层概述2）C/S模式和P2P模式2域名系统DNS1）层次域名空间2）域名服务器3）解析器3文件传输系统FTP1）控制连接2）数据链接4电子邮件1）用户代理UA2）邮件服务器3）邮件发送协议SMTP4）邮件读取协议POP35）基于万维网的电子邮件5万维网WWW1）文档组成：HTML、......
机器学习新手入门笔记03#AI夏令营#Datawhale X 李宏毅苹果书#夏令营
深度学习实践方法论在应用机器学习算法时，实践方法论能够帮助我们更好地训练模型。如果在Kaggle上的结果不太好，虽然Kaggle上呈现的是测试数据的结果，但要先检查训练数据的损失。看看模型在训练数据上面，有没有学起来，再去看测试的结果，如果训练数据的损失很大，显然它在训练集上面......
华为20240821笔试第一题笔记
https://mp.weixin.qq.com/s?__biz=MzkyNTQ3NDAzNw==&mid=2247489703&idx=1&sn=96d3f883998b4bbb395dfc5f08906399&chksm=c02307cb0d07e5b4e7140350b08b20bd7b5ba950886d62a60f44af3bc6c070c1031827edc979&mpshare=1&scene=1&srcid=0821m7WJaqagZ......
python基础个人笔记
一、基础变量可使用type(param)查看变量类型 1.整型int 可使用int(param)强转 2.浮点型float 可使用float(param)强转 3.复数complex ......
ElasticSearch学习笔记(三)RestClient操作文档、DSL查询文档、搜索结果排序
文章目录前言5RestClient操作文档5.4删除文档5.4修改文档5.5批量导入文档6DSL查询文档6.1准备工作6.2全文检索查询6.3精准查询6.4地理坐标查询6.5复合查询6.5.1相关性算分6.5.2布尔查询7搜索结果处理7.1排序7.1.1普通字段排序7.1.2地理坐标排序......
一些笔记记录
1.样式绑定<divid="id1":style="style1">演示v-bind</div><divclass="c":style="[cls?'a':'b']">演示v-bind</div>conststyle1={color:'red',border:'1p......
NSIS入门笔记
1.基本介绍NSIS(NullsoftScriptableInstallSystem)是一个专业的开源系统，用于创建Windows安装程序。平时工作中想要把exe文件打包，并且在不同系统之间安装，可以使用NSIS，本文使用版本为3.08。2.下载地址可以通过搜索引擎搜索NSIS，推荐安全下载链接：https://nsis.sourceforge.io......
Effective Java理解笔记系列-第2条-何时考虑用构建器?
类中有几个必选参数，且存在大量可选参数时。大量指至少有4个可选指大部分实例只在某几个可选域存在非零值，其他都是零。如：publicclassNutritionFacts{ privatefinalintservingSize;//每份含量，必选 privatefinalintservings;//每罐含量，必选 privatefinalintcalor......
P2825 [HEOI2016/TJOI2016] 游戏与 P10945 Place the Robots
本文中的机器人同炸弹，主要是题目描述不同，两道题目做法是本质相同的。思路：先说一下没有墙怎么办，那么当一个位置放了机器人之后，这个机器人所在的行和列是不能继续放置的。那么发现行和列几乎是独立的，考虑建二分图，若\((i,j)\)能放一个机器人，那么给\(i\toj\)建一条边。那么......