首页 > 其他分享 >如何屏蔽各大AI公司爬虫User Agent

如何屏蔽各大AI公司爬虫User Agent

时间:2023-12-30 11:34:54浏览次数:39  
标签:AI Agent 爬虫 agent Disallow 人工智能 屏蔽 User

罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机

GPTBot

GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。

30%的大站屏蔽了它

User-agent: GPTBot
Disallow: /

 

ChatGPT-User

ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。

10%的大站屏蔽了它

User-agent: ChatGPT-User
Disallow: /

 

cohere-ai

Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。

1%的大站屏蔽了它

User-agent: cohere-ai
Disallow: /

  

Google-Extended

Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。

11%的大站屏蔽了它

User-agent: Google-Extended
Disallow: /

  

CCBot

CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

User-agent: CCBot
Disallow: /

 

Omgilibot

Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。  

1%的大站屏蔽了它

User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

  

FacebookBot

FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。

0%的大站屏蔽了它

User-agent: FacebookBot
Disallow: /

  

anthropic-ai

anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。

2%的大站屏蔽了它

User-agent: anthropic-ai
Disallow: /

 

Twitterbot

Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。

11%的大站屏蔽了它

User-agent: Twitterbot
Disallow: /

  

  


 

更多AI公司爬虫User Agent不定时更新

标签:AI,Agent,爬虫,agent,Disallow,人工智能,屏蔽,User
From: https://www.cnblogs.com/ytkah/p/ai-bot-ua.html

相关文章

  • IP: dns-lookup : 查询域名的公网IP地址 解决 DNS域名解析绑架的问题例如访问 raw.git
    示例:https://github.com/orgs/community/discussions/42655https://github.com/mwaskom/seaborn-data/blob/2b29313169bf8dfa77d8dc930f7bd3eba559a906/dataset_names.txthttps://www.ip-lookup.org/dns-lookup/raw.githubusercontent.comIPDetailsDomain:Raw.githubuser......
  • 新火种AI|AI正在让汽车成为“消费电子产品”
    作者:一号编辑:小迪AI正在让汽车产品消费电子化12月28日,铺垫许久的小米汽车首款产品——小米SU7正式在北京亮相。命里注定要造“电车”的雷军,在台上重磅发布了小米的五大自研核心技术。在车型设计、新能源技术以及智能科技方面都取得了突破。“科技大厂”小米正式驶入新能源赛道。雷......
  • IntelliJ IDEA 2023.3.2 的 AI Assistant 终于被激活了,但我是这样干的!
    大家好,欢迎来到程序视点!我是小二哥。前言在IntelliJIDEA2023.3.1发布后,每天都有小伙伴询问AIAssistant的激活问题。在JetBrainsIDE重磅推出的AI助手,我和大家一样,都想尽快解锁这一插件。幸运的是,在刚发布的IntelliJIDEA2023.3.2中,我终于激活了AIAssistant。AI......
  • 区域人数超员AI算法模型的应用介绍
    视频AI智能分析技术已经深入到人类生活的各个角落,与社会发展的方方面面紧密相连。从日常生活中的各种场景,如人脸识别、车牌识别,到工业生产中的安全监控,如工厂园区的翻越围栏识别、入侵识别、工地的安全帽识别、车间流水线产品的品质缺陷AI检测等,AI智能分析都发挥着不可或缺的作用。......
  • 探索大语言模型 :首场英智未来AI沙龙精彩回顾
    12月27日,英智未来主办的第一期英智AI沙龙《大语言模型创新应用与最新发展现状》在深圳南山顺利举行。本次沙龙汇集了来自IT、文娱、金融等行业的精英人士和AI爱好者,共同探讨大语言模型在各领域的创新应用及其发展趋势。  以大模型为核心的通用人工智能正在驱动新一轮智......
  • 探索大语言模型 :首场英智未来AI沙龙精彩回顾
    12月27日,英智未来主办的第一期英智AI沙龙《大语言模型创新应用与最新发展现状》在深圳南山顺利举行。本次沙龙汇集了来自IT、文娱、金融等行业的精英人士和AI爱好者,共同探讨大语言模型在各领域的创新应用及其发展趋势。以大模型为核心的通用人工智能正在驱动新一轮智能革命的持续演......
  • 方案:智能分析网关V4区域人数超员AI算法模型的应用场景介绍
    视频AI智能分析技术已经深入到人类生活的各个角落,与社会发展的方方面面紧密相连。从日常生活中的各种场景,如人脸识别、车牌识别,到工业生产中的安全监控,如工厂园区的翻越围栏识别、入侵识别、工地的安全帽识别、车间流水线产品的品质缺陷AI检测等,AI智能分析都发挥着不可或缺的作用......
  • 谷歌云 | Dataflow 和 Vertex AI:可扩展高效的模型服务
    【CloudAce云一 是GoogleCloud全球战略合作伙伴,在亚太地区、欧洲、美洲和非洲拥有二十多个办公室。CloudAce在谷歌专业领域认证及专业知识目前排名全球第一位,并连续多次获得GoogleCloud各类奖项。作为谷歌云托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认......
  • LLaVA-v1.5-7B:实现先进多模态学习的开源AI
    引言LLaVA-v1.5-7B是一个开源大型多模态模型(LMM),它通过结合视觉指令调整(VisualInstructionTuning)技术,展示了在多模态理解和生成任务上的卓越性能。该模型特别注重简洁性和数据效率,利用CLIP-ViT-L-336px与多层感知器(MLP)投影以及包含学术任务导向的视觉问答(VQA)数据,来建立更强的基准......
  • 谷歌云 | Dataflow 和 Vertex AI:可扩展高效的模型服务
    如果您考虑使用VertexAI来训练和部署您的模型,那您选对了!数据对于机器学习至关重要,模型拥有的数据量越大,质量越高,模型的性能就会越好。在训练模型之前,数据必须经过预处理,这意味着清洗、转换和聚合数据,使其成为模型可以理解的格式。数据预处理在模型服务时也很重要,但由于实时流数......