首页 > 其他分享 >红蓝对抗 (red-teaming)

红蓝对抗 (red-teaming)

时间:2023-02-21 10:25:41浏览次数:74  
标签:语言 模型 LM 红蓝 teaming 红队 我们 red

论文地址:
https://arxiv.org/abs/2209.07858

论文题目:
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

减少危害的红队语言模型:方法、缩放行为和经验教训

摘要:

我们描述了早期红蓝语言模型的工作,发现、测量并尝试减少其潜在的有害输出。
我们作出了三个主要贡献。
(1)首先,我们研究了红队在3种模型大小(2.7B, 13B和52B参数)和4种模型类型中的缩放行为:普通语言模型(LM);一个有用、诚实、无害的提示LM;有抑制抽样的LM;以及一个使用从人类反馈中强化学习(RLHF)训练成有益无害的模型。我们发现RLHF模型随着规模的扩大对红队来说越来越困难,我们发现其他模型类型的规模呈平缓趋势。
(2)其次,我们发布了38,961次红队攻击的数据集,供其他人分析和学习。我们提供了自己对数据的分析,并发现了各种有害的输出,从攻击性语言到更微妙的有害非暴力不道德输出。
(3)第三,我们详尽地描述了我们的指示、流程、统计方法和关于红队的不确定性。我们希望这种透明度能够加速我们作为一个社区一起工作的能力,以便为红队语言模型开发共享的规范、实践和技术标准。

目的是让语言模型变得有用、诚实、无害,而不是胡说八道。

标签:语言,模型,LM,红蓝,teaming,红队,我们,red
From: https://www.cnblogs.com/xuehuiping/p/17139990.html

相关文章

  • redission删除key
    RBucket<Object>bucket=REDISSON_CLIENT.getBucket("queryRed"+userId);if(bucket.isExists()){bucket.delete();resultMap.put("c......
  • 数组的reduce方法 - 累积运算
    参数描述function(total,currentValue,index,arr)必需。用于执行每个数组元素的函数。函数参数:参数描述total必需。初始值,或者计算结束后的返回值。curr......
  • docker多容器之间的连接(Flask和Redis)
    (一)docker多容器的应用使用flask编写一个web应用,将数据存放于redis中在docker开发中,我们应该遵循每个容器只做一件事的原则我们运行两个容器,一个用于运行fla......
  • vue2,nginx,redis,tomcat,Java的关系
    Java作为一种广泛应用的编程语言,在后端开发中扮演着重要的角色。Java后端开发不仅需要掌握Java语言的基本语法和相关技术,还需要熟悉一些其他的技术和工具,如Vue2、Nginx、Re......
  • MyBatis-RedisCache源码分析
    回顾在前面,我们通过redis​集成了MyBatis​的二级缓存,440.MyBatis的二级缓存整合redis,接下来,我们来分析一下RedisCache​的源码。源码分析RedisCache主要是通过......
  • redis-6.2
    1.事务(1).命令行形式首先是开启事务命令multi,执行完数据修改后EXEC提交事务,DISCARD取消事务  (2).代码形式pipe=r.pipeline()#创建一个管道pipe.multi()pi......
  • redis的docker使用介绍
    介绍(redisversion)镜像,容器,仓库的关系仓库中可能有很多镜像,拉取一个镜像到本地,镜像在容器中运行如果在一个操作系统中需要使用到另外一种操作系统,那么可以使用docker......
  • 【Azure 事件中心】Azure Event Hub客户端遇见 Expired Heartbeat 错误
    问题描述AzureEventHub在消费数端中,经常性遇见ExpiredHeartbeat错误(consumer-xxxxxxxxxxxxx-c84873c6c828e8df6c843861ad36affb fromgroupxxxxxxxxxxxxduetoex......
  • redis数据类型-string
    存储字符串类型的key-value形式常用场景验证码计数器重复提交:生成随机token,提交后token删除,token存在redis中复杂信息的序列化存储常用命令(https://try.redis.i......
  • 【Azure 事件中心】Azure Event Hub客户端遇见 Expired Heartbeat 错误
    问题描述AzureEventHub在消费数端中,经常性遇见ExpiredHeartbeat错误(consumer-xxxxxxxxxxxxx-c84873c6c828e8df6c843861ad36affb fromgroupxxxxxxxxxxxxdueto......