OpenAI 再次稍微揭开了它的安全测试流程的面纱。上个月,他们分享了一项调查的结果,这项调查研究了 ChatGPT 在根据用户名字生成性别或种族偏见的几率。现在,他们又发布了两篇论文,详细描述了如何对大型语言模型进行“压力测试”(也叫红队测试),目的是找出可能有害或者其他不希望出现的行为。
为什么要测试?
大型语言模型已经被成千上万的人用在各种各样的场景中。但 OpenAI 自己也承认,这些模型有可能生成种族主义、性别歧视或仇恨言论;泄露私人信息;放大偏见和刻板印象;甚至是凭空捏造事实。OpenAI 希望通过公开它的测试方法,展示他们是如何努力减少这些问题的。
怎么测试的?
第一篇论文提到,OpenAI 通过大量的外部测试人员对模型行为进行审查。这些人来自不同领域,比如艺术、科学、法律、医学,甚至是地区政治的专家。他们的任务就是尽可能“搞坏”模型,找出潜在的问题,比如诱导 ChatGPT 说出种族主义的话,或者让 DALL-E 生成暴力的图像。
第二篇论文则描述了一种新的自动化测试方法——用 GPT-4 这样的语言模型来“反过来”试图绕过自己的安全保护措施。这个方法的核心是用 AI 帮助发现更多潜在的问题。
OpenAI 的目标是把人工测试和自动化测试结合起来。人类测试发现的问题可以交给 AI 进一步挖掘,而 AI 找出的问题也可以让人类测试人员验证。OpenAI 的研究员 Lama Ahmad 说:“我们还在探索两者如何更好地互补。”
红队测试是怎么来的?
其实,红队测试并不是新概念。最初它来源于网络安全领域,就是通过模拟攻击来找系统漏洞。OpenAI 第一次使用这个方法是在 2022 年测试 DALL-E 2 时。当时,他们想知道用户会怎么用这个系统,以及可能会出现哪些风险。
这个方法后来成了行业标准。甚至美国总统拜登在去年的 AI 行政命令中,还指派国家标准与技术研究院(NIST)去制定红队测试的最佳实践。
发现问题的例子
举个例子,当 OpenAI 给 GPT-4 加上语音功能,让用户可以和 ChatGPT 对话时,测试人员发现模型有时会模仿用户的声音。这种行为虽然无意,但既让人不爽,又可能带来诈骗风险。
再比如,DALL-E 2 在测试时,测试人员要权衡“茄子”这个词的多种含义。一个正常的请求可能是“一个人吃茄子”,但另一个含性暗示的请求,比如“一个人把整根茄子放进嘴里”,就不合适了。模型必须学会分辨这些区别。
类似地,用户还会试图绕过安全检查。比如,你不能让 DALL-E 画“死马躺在血泊中”,但如果你换个说法,请求“睡着的马躺在一滩番茄酱里”呢?这就是测试需要发现的问题。
自动化测试的优势和局限
自动化测试能覆盖更多情况,但也有短板。过去的技术常常陷入两种极端:要么只集中在少量高风险行为上,要么泛泛而谈,结果无关痛痒。
OpenAI 在第二篇论文里提出了解决办法:先用大型语言模型生成各种潜在问题的清单,再用强化学习去实现这些问题。这样既能保证多样性,又能有针对性。
这个方法甚至发现了所谓的“间接提示注入”攻击,比如有的网站可以偷偷给模型发指令,让它做一些用户没要求的事情。
测试够了吗?
OpenAI 的 Ahmad 认为,让更多人了解红队测试会有帮助,但她也承认,仅靠 OpenAI 是不够的。她呼吁使用这些模型的公司也要进行自己的测试:“用法太多了,我们不可能覆盖所有情况。”
但一些专家表示,这恰恰是问题所在。因为没人完全了解大型语言模型的能力和局限性,再多的测试也无法彻底排除有害行为。而且,数百万实际用户的使用方式可能比任何测试人员都更“有创意”。
尤其当这些模型在不同环境下运行时,情况更加复杂。比如,一些人把模型接入新的数据源,这会改变它的行为。Collinear AI 的 CEO Nazneen Rajani 提到,GPT-4 自己进行红队测试也可能有偏见,因为模型倾向于更高评价自己的输出,这可能导致它对自己的问题“网开一面”。
未来怎么办?
英国 Ada Lovelace 研究所的 Andrew Tait 认为,模型的开发速度已经远远超过了测试技术的发展。他建议,与其宣传这些模型是“万能”的,不如专注于特定任务。这样才能真正测试它们在实际使用中的表现。
他说:“说引擎安全,不代表所有用这个引擎的车都安全。这种想法简直荒唐。”