- 背景
OpenAI 在没有正式宣布的情况下,于本周发布了一项网站爬虫规范GPTbot。一旦被大模型爬虫爬取,也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集 Common Crawl(翻译成中文是“常见爬取”或“通用爬虫”),常被用于训练 OpenAI 的 ChatGPT。
- 风险排查
针对网络爬虫的防范,可以优先去排查自有业务是否设定了robots.txt和网站 meta标签。
1、robots.txt:是一个通常放置在网站根目录中的文件,用于指导搜索引擎爬虫(也称为机器人或蜘蛛)哪些页面可以被抓取和索引,哪些不可以。通过这个文件,网站管理员可以防止爬虫访问敏感、私密或无关紧要的部分,同时确保对重要页面的有效索引。
2、meta标签:控制搜索引擎爬虫行为,用于告诉搜索引擎爬虫是否应该索引某个页面或跟随页面上的链接
排查情况如下:
利用脚本代码进行批量查询结果如下:
- 总结
目前支队所有业务均未设置robots.txt或 meta标签,无法针对任何爬虫包括GPTbot进行防范。
- 下一步工作
1、创建robots.txt文件
要阻止所有子域名下的内容不被任何搜索引擎爬虫爬取,支队将在每个子域的根目录下放置一个 robots.txt 文件,并在每个文件中写入以下规则:
User-agent: *
Disallow: /
这里的 User-agent: * 表示规则适用于所有的爬虫,而 Disallow: / 则指示爬虫禁止爬取该子域下的所有目录和页面。
- 在安全设备上匹配关键词
GPTBot是OpenAI的网络爬虫,支队可以通过以下用户代理和字符串来识别,并在安全设备上匹配关键字进行拦截。
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
- 在防火墙上限制
为了防止有人冒充 GPTbot,OpenAI 公布了自己使用的网段,如下是网上公开的使用网段和GPTbot正在使用的网段,支队将在防火墙上进行封禁:
52.230.152.0/24
52.233.106.0/24
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28