• 2024-09-13关于排查GPTbot爬虫风险说明
    背景OpenAI在没有正式宣布的情况下,于本周发布了一项网站爬虫规范GPTbot。一旦被大模型爬虫爬取,也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集CommonCrawl(翻译成中文是“常见爬取”或“通用爬虫”),常被用于训练OpenAI的ChatGPT。风险排查针对网络