首页 > 其他分享 >禁止爬虫抓取网站

禁止爬虫抓取网站

时间:2023-06-19 16:45:57浏览次数:46  
标签:禁止 抓取 URL robots 爬虫 访问 https txt

Robots.txt 测试工具,是一款在线验证 robots.txt 规则的工具。通过 Robots.txt 测试工具,可以检测在 robots.txt 设定的规则下,网站指定的页面是否允许网络爬虫访问。

本工具支持的搜索引擎爬虫有:

  • 百度爬虫 - BaiduSpider
  • Google 爬虫 - GoogleBot
  • Bing 爬虫 - BingBot
  • 360 爬虫 - 360Spider
  • 搜狗爬虫 - SougouSpider
  • 宜搜爬虫 - YisouSpider

使用方法

首先,输入页面 URL,然后选择要检测的爬虫名称(当然,也可以选择 All(*),表示任意爬虫),点击【开始检测】按钮,即可得到检测结果。

以 https://www.dute.org/blog 页面为例,检测结果如下:

 

 

 

 

上述结果表示:对于所有爬虫,均可访问 https://www.dute.org/blog 页面。

再以微信公众号文章页面 https://mp.weixin.qq.com/s 为例,选择 BaiduSpider 进行检测,检测结果如下:

 

 

 

 

 

很明显,https://mp.weixin.qq.com/s 页面不允许百度爬虫访问。

其实,选择 All(*) 也是同样的结果,说明微信公众号文章不允许爬虫爬取其内容。

如果检测到了网站的 robots.txt 文件,本工具还会显示 robots.txt 文件的内容。下面是本站 dute.org 的 robots.txt 的内容:

dute.org 网站的 robots.txtdute.org 网站的 robots.txt

如果未检测到 robots.txt 文件,则会提示 robots.txt 文件不存在(robots.txt 文件对应的 URL 返回 404 状态码会认为文件不存在)。这种情况,被视为允许访问。道理很明显:作为互联网上可以公开访问的资源,如果网站未通过 robots.txt 的规则明确拒绝,则认为是允许访问的。

 

 

 

 

robots.txt 简介

robots.txt 是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络爬虫),此网站中的哪些内容是不应被搜索引擎的爬虫获取的,哪些是可以被爬虫获取的。因为一些系统中的URL是大小写敏感的,所以,robots.txt 的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(Metadata,又称元数据)。

robots.txt 协议并不是一个规范,而只是一种约定俗成的用法(建议),是否遵守 robots.txt 规则,全凭搜索引擎自身的考虑,所以,并不能严格保证网站的隐私。

robots.txt 还允许使用类似 Disallow: *.gif 这样的通配符来匹配一组路径。

注意:robots.txt 是用字符串比较来确定是否获取 URL,因此,目录末尾有斜杠 / 与没有斜杠,是 2 种不同的 URL。

除了 robots.txt 制定的规则外,其它影响搜索引擎爬虫行为的还有 robots 元数据:

<meta name="robots" content="noindex,nofollow" />

上述 meta 标签,表示禁止搜索引擎索引和跟踪当前页。

提示:如果对 meta 标签不熟悉,本站提供了网页 meta 标签生成工具,可以方便地生成网页常用的 meta 标签,其中包括 robots meta 标签。

用法示例

下面展示了一些典型的 robots.txt 的规则示例。

1、允许所有爬虫访问

User-agent: *
Allow: /

2、仅允许 GoogleBot 访问

User-agent: googlebot
Allow: /

3、除了 /blog 外,禁止访问其它页面

User-agent: *
Allow: /blog
Disallow: /

4、禁止访问(抓取) /cgi-bin/ 下面的文件

User-agent: *
Disallow: /cgi-bin/

5、禁止访问根目录下的 .php 文件

User-agent: *
Disallow: /*.php$

 仅作为记录学习

来源:https://www.dute.org/robots-tester

 

 

TRANSLATE with x English
Arabic Hebrew Polish
Bulgarian Hindi Portuguese
Catalan Hmong Daw Romanian
Chinese Simplified Hungarian Russian
Chinese Traditional Indonesian Slovak
Czech Italian Slovenian
Danish Japanese Spanish
Dutch Klingon Swedish
English Korean Thai
Estonian Latvian Turkish
Finnish Lithuanian Ukrainian
French Malay Urdu
German Maltese Vietnamese
Greek Norwegian Welsh
Haitian Creole Persian  
  TRANSLATE with COPY THE URL BELOW Back EMBED THE SNIPPET BELOW IN YOUR SITE Enable collaborative features and customize widget: Bing Webmaster Portal Back

标签:禁止,抓取,URL,robots,爬虫,访问,https,txt
From: https://www.cnblogs.com/d0minic/p/17491488.html

相关文章

  • Python爬虫与数据可视化(前程无忧网)
    1、前言最初我写过一篇相同的文章发表到了CSDN中,因为写的比较早,2019年吧,8万多访问量,所以后来也有很多网友反馈各种问题,包括网站反爬、数据爬取失败、网络异常等等,所以那篇文章也经过了多次的修改。不过目前因为CSDN规则更改,爬虫类文章因违反社区规定被下架了,然后我也很久没有去......
  • CentOS系统爬虫怎么样 ?
    在CentOS系统上进行爬虫与在其他平台上进行爬虫基本上没有太大的区别。CentOS是一种流行的Linux发行版,可以提供稳定和安全的服务器环境。学习CentOS系统管理知识将有助于您更好地处理服务器配置,优化性能,并确保爬虫任务的正常运行。CentOS系统可以用来运行爬虫程序,但具体效果取决于......
  • CentOS服务器爬虫怎么样 ?
    在CentOS系统上进行爬虫与在其他平台上进行爬虫基本上没有太大的区别。CentOS是一种流行的Linux发行版,可以提供稳定和安全的服务器环境。学习CentOS系统管理知识将有助于您更好地处理服务器配置,优化性能,并确保爬虫任务的正常运行。CentOS系统可以用来运行爬虫程序,但具体效果取决......
  • 学习python爬虫需要掌握哪些库?
    Python爬虫是指使用Python编写的程序,用来自动化地获取互联网上的数据。通过爬取网站的HTML内容,并解析和提取所需的数据,可以实现自动化地收集、分析和处理大量的在线数据。学习Python爬虫需要掌握以下几个核心库:Requests:用于发送、BeautifulSoup:用于解析HTML或XML文档,提取结构化数据......
  • 学习python爬虫需要掌握哪些库?
    Python爬虫是指使用Python编写的程序,用来自动化地获取互联网上的数据。通过爬取网站的HTML内容,并解析和提取所需的数据,可以实现自动化地收集、分析和处理大量的在线数据。学习Python爬虫需要掌握以下几个核心库:Requests:用于发送、BeautifulSoup:用于解析HTML或XML文档,提取结构化......
  • selenium爬虫运行慢如何解决?
    Selenium作为一个强大的自动化工具,可用于编写爬虫程序,尽管Selenium在处理动态网页上非常强大,但对于静态网页爬简单数据提取,使用轻量级库或工具可能更加上所述,Selenium作为一个灵活可定动化工具,在需要模拟用户行为、处理动态网页内容,并进行复杂交互的爬虫任务中是一种价值的选择。那......
  • selenium爬虫运行慢如何解决?
    Selenium作为一个强大的自动化工具,可用于编写爬虫程序,尽管Selenium在处理动态网页上非常强大,但对于静态网页爬简单数据提取,使用轻量级库或工具可能更加上所述,Selenium作为一个灵活可定动化工具,在需要模拟用户行为、处理动态网页内容,并进行复杂交互的爬虫任务中是一种价值的选择。......
  • 使用以下命令来禁止 Windows Server 2022 在登录时自动启动服务器管理器
    使用以下命令来禁止WindowsServer2022在登录时自动启动服务器管理器:打开记事本,将以下命令复制粘贴到记事本中:regadd"HKLM\Software\Microsoft\ServerManager"/vDoNotOpenServerManagerAtLogon/tREG_DWORD/d1/f将文件保存为后缀名为.bat的批处理文件,比如"disabl......
  • Python3网络爬虫开发实战阅读笔记
    基本库的使用网络请求库urllib(HTTP/1.1)Python自带请求库,繁琐基础使用:略requests(HTTP/1.1)Python常用第三方请求库,便捷基础使用:略httpx(HTTP/2.0)Python第三方库,支持HTTP/2.0,支持异步请求,支持Python的async请求模式pipinstall'httpx[http2]'基础使用:与requests相似,默认......
  • 保障网络安全与提升爬虫效率:深入探究IP代理技术
    在当今数字化时代,网络安全和数据获取效率是互联网应用中至关重要的两个方面。为了满足这些需求,IP代理技术应运而生。本文将着重介绍socks5和HTTP代理协议,以及如何编写高效的爬虫程序来保障网络安全和提升爬虫效率。IP代理是一种中间服务器,它允许用户通过代理服务器访问互联网资源,同......