关于排查GPTbot爬虫风险说明

时间：2024-09-13 12:53:06浏览次数：9

标签：txt 爬虫 robots GPTbot 排查 2820.15 页面

背景

OpenAI 在没有正式宣布的情况下，于本周发布了一项网站爬虫规范GPTbot。一旦被大模型爬虫爬取，也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集 Common Crawl（翻译成中文是“常见爬取”或“通用爬虫”），常被用于训练 OpenAI 的 ChatGPT。

风险排查

针对网络爬虫的防范，可以优先去排查自有业务是否设定了robots.txt和网站 meta标签。

1、robots.txt:是一个通常放置在网站根目录中的文件，用于指导搜索引擎爬虫（也称为机器人或蜘蛛）哪些页面可以被抓取和索引，哪些不可以。通过这个文件，网站管理员可以防止爬虫访问敏感、私密或无关紧要的部分，同时确保对重要页面的有效索引。

2、meta标签:控制搜索引擎爬虫行为,用于告诉搜索引擎爬虫是否应该索引某个页面或跟随页面上的链接

排查情况如下：

利用脚本代码进行批量查询结果如下：

总结

目前支队所有业务均未设置robots.txt或 meta标签，无法针对任何爬虫包括GPTbot进行防范。

下一步工作

1、创建robots.txt文件

要阻止所有子域名下的内容不被任何搜索引擎爬虫爬取，支队将在每个子域的根目录下放置一个 robots.txt 文件，并在每个文件中写入以下规则：

User-agent: *

Disallow: /

这里的 User-agent: * 表示规则适用于所有的爬虫，而 Disallow: / 则指示爬虫禁止爬取该子域下的所有目录和页面。

在安全设备上匹配关键词

GPTBot是OpenAI的网络爬虫，支队可以通过以下用户代理和字符串来识别，并在安全设备上匹配关键字进行拦截。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

在防火墙上限制

为了防止有人冒充 GPTbot，OpenAI 公布了自己使用的网段，如下是网上公开的使用网段和GPTbot正在使用的网段，支队将在防火墙上进行封禁：

52.230.152.0/24

52.233.106.0/24

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

标签：txt,爬虫,robots,GPTbot,排查,2820.15,页面
From： https://blog.csdn.net/feijunyue123/article/details/142202096

金边招聘爬虫 1位 UI设计师1名
岗位一中高级爬虫1位底薪30K以上面试后决定岗位职责1.熟悉Scrapy.有丰富的爬虫及反爬虫相关经验;2.负责复杂验证码的破解技术调研和实现，负责爬虫技术的调研和破解;3.研究反爬机制，处理抓包.下载等环节的疑难问题;4.负责数据下载.抽取.清洗.分类.聚类等工作;5.负责......
《地铁：离去》游戏启动故障：0xc000007B错误的快速排查与修复
遇到《地铁：离去》游戏中显示0xc000007B错误代码时，不必慌张，以下是一系列简便的排查与解决步骤，助您顺畅启动游戏：1.DirectX&VisualC++重置：•首先，确认您的系统中DirectX和VisualC++Redistributable是否为最新。这些组件对游戏运行至关重要。前往微软下载最新DirectX，同时安......
《斩妖行》无法启动：sdl3.dll文件缺失的详细排查与解决方案
《斩妖行》无法启动？针对您在启动《斩妖行》游戏时遇到的sdl3.dll文件缺失问题，这里有一套循序渐进的解决策略。感兴趣的可以来看看。1.验证游戏完整性：•首先，通过游戏平台（如Steam）验证游戏文件的完整性，确保sdl3.dll没有被意外删除或损坏。2.重新安装SDL库：•SDL库是许多游戏运......
Python编译器IDE爬虫爬取3首歌曲代码
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“http://music.163.com/song/media/outer/url?id=5255631.mp3”,“http://music.163.com/song/media/outer/url?id=5255640.mp3”]forindex,song_urlinenumerate(so......
Python有哪些常见的、好用的爬虫框架？
Python有非常多的爬虫框架，主要分为三大类。一种是请求库，比如requests、urllib、httpx等，负责向目标网站发送HTTP请求并获取响应数据。Scrapy也属于这个大类，不过Scrapy功能更加完善，可以提供异步网络请求、高效的数据提取与灵活的扩展性，适用于构建复杂和大规模的网页爬虫应用。......
爬虫案例2-爬取视频的三种方式之一：selenium篇(2)
@目录前言selenium简介实战案例共勉博客前言继使用requests库爬取好看视频的文章后，本文分享使用python第三方库selenium库接着来爬取视频网站，后续也会接着分享使用第三方库DrissionPage爬取视频。selenium简介selenium是一个用于web应用测试的工具集，它可以直接运行在浏览器中，......
Scrapy设置动态代理IP—提升爬虫效率与成功率的秘诀
在进行网络数据采集时，爬虫代理IP是一个不可或缺的工具。通过动态代理IP，Scrapy爬虫可以有效避免被目标网站封禁，提高数据采集的成功率和效率。本文将详细介绍如何在Scrapy中设置动态代理IP，让你的爬虫更加智能和高效。什么是动态代理IP？动态代理IP是指在数据采集过程中，定期更换使......
基于Python的黑龙江旅游景点数据分析系统基于Flask的旅游景点爬虫可视化平台（程序+LW+
......
计算机毕业设计PySpark+Django深度学习游戏推荐系统游戏可视化游戏数据分析游戏爬
在撰写《PySpark+Django深度学习游戏推荐系统》的开题报告时，建议包括以下内容：###1.研究背景与意义在数字娱乐行业中，游戏推荐系统成为提升用户体验的关键工具。现有的推荐系统大多基于用户行为数据进行推荐，但随着数据量的急剧增加和数据复杂性的提升，传统的推荐算法面临挑战......
GBase 8a通过集群日志查看执行计划和每个阶段的整体耗时和各个节点的耗时做性能排查
GBase8a提供了执行计划，以及不同的日志级别，现实整体各个节点耗时，以及每个节点的耗时，来方便用户进行性能排查，本文介绍详细的分析方法。环境2节点虚拟机集群[gbase@rh6-1~]$gcadminCLUSTERSTATE:ACTIVECLUSTERMODE:NORMAL=========================================......

关于排查GPTbot爬虫风险说明

相关文章

赞助商

阅读排行