网站首页
编程语言
数据库
系统相关
其他分享
编程问答
GPTBot
2024-09-13
关于排查GPTbot爬虫风险说明
背景OpenAI在没有正式宣布的情况下,于本周发布了一项网站爬虫规范GPTbot。一旦被大模型爬虫爬取,也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集CommonCrawl(翻译成中文是“常见爬取”或“通用爬虫”),常被用于训练OpenAI的ChatGPT。风险排查针对网络