我自己的原文哦~ https://blog.51cto.com/whaosoft/12709440
#ChatGPT两岁,OpenAI 10亿用户计划曝光
ChatGPT已经2岁了!OpenAI下一个目标瞄准十亿用户,预计明年放出AI智能体产品。就在生日这天,马斯克还送上了大礼:阻止OpenAI全面盈利的一份诉状书。
两年过去了... ChatGPT自诞生之日起,已经给全世界带去了翻天覆地的变化。
今天,正是ChatGPT两周年纪念日!
OpenAI官推转发了两年前的帖子,并附上了「所以,你试过了吗」?
评论区的网友们纷纷向OpenAI索要「礼物」,有的人表示都用了两年了,今天没有满血版o1吗?
Altman却发文表示,「做了一个树屋」,完全没有透露半点即将发布新模型的消息。
OpenAI联创Greg在第一时间内向ChatGPT送上了祝福。
也是从那时起,AI就成为了全网被提及的高频词。截止目前,ChatGPT每周就有2.5亿活跃用户。
而且,自ChatGPT推出以来,世界最大的六家科技公司的市值,总计增长了超8万亿美元。其中,英伟达市值飙升最为显著。
在完成新一轮60亿美金融资后,OpenAI最新估值达到了1500亿美元,目前还在积极寻求新一轮融资,以支撑每年高达50亿美元支出。
这些资金全部被用来,训练下一代新模型和建设基础设施。
外媒最新爆料称,OpenAI智能体即将在2025年推出,目标是在未来扩展到10亿用户群体。
世界科技巨头,总估值飙升8万亿美金
ChatGPT的发布,是世界科技公司命运的一个转折点。
彭博最新统计称,包括英伟达、谷歌、微软、苹果、亚马逊在内的科技巨头,在这场AI红利中,共享了8万亿美金的估值。
开局一张图,简单绘制了ChatGPT自2022年推出以来,六家公司的市值变化,整个科技板块S&P 500指数上涨了30%。
与此同时,英伟达大幅超越了AMD、英特尔,稳坐世界算力的宝座。
另外,世界三大主要云服务提供商微软、亚马逊、谷歌的云收入也在加速增长,突破了2500亿美金。
而对于小公司来说,获得的回报相对较少。
ChatGPT生日,马斯克搞事情
就在ChatGPT生日这天,马斯克为OpenAI送了份大礼。
他向法院提交了一项最新禁令,目的是为了阻止OpenAI全面盈利。
马斯克的律师团队已经向加州北区地方法院提交禁令动议,指控OpenAI、首席执行官Sam Altman、总裁Greg Brockman;以及微软、LinkedIn联合创始人兼前OpenAI董事会成员Reid Hoffman,前OpenAI董事会成员兼微软副总裁Dee Templeton存在各种非法的、不正当竞争行为。
简单来说,指控内容主要有四条:
1、OpenAI阻止投资者支持其他竞争公司,比如马斯克自己的xAI,即OpenAI利用其市场地位,影响投资者决策,吸收更多资金,从而限制市场公平竞争。
2、通过与微软的联系,「不正当地获取竞争敏感信息」共享信息在市场竞争中提供了不正当的优势。
3、将OpenAI的治理结构转变为盈利性质,并「转移所有由OpenAI公司、其子公司或关联公司所拥有的、持有的或控制的重要资产,包括知识产权」。
4、OpenAI与其他被告有「重大财务利益」的组织开展业务往来,损害了市场的公平竞争。
如果法院不批准禁令,马斯克的律师团队声称会对市场造成「无可挽回的伤害」(irreparable harm),禁止OpenAI的非营利性质变更后,OpenAI在继续接受新投资的情况下,「几乎不可能撤销」公司的交易,也就不会造成「大规模投资损失」。
而且就算马斯克胜诉,OpenAI也可能没有「足够的资金」来支付赔偿金,OpenAI的支出超过50亿美元,而且远未实现收支平衡。
「为了保护OpenAI剩余的非营利性质,防止自我交易,颁发禁令是唯一适当的补救措施。如果不这样做,等到法院审理此案时,对马斯克和公众承诺的OpenAI早已不复存在。」
其实这也不是马斯克第一次起诉OpenAI,今年7月,马斯克就曾撤回过一份诉讼,当时指控OpenAI违背了其最初的非营利使命,没有让研究成果惠及所有人。
马斯克当时声称被骗了4400万美元,虽然当时算是捐赠给OpenAI的,但不过是因为有人利用了他对人工智能「存在性」危害的担忧。
在11月的修正诉状中,还增加了微软、Hoffman和Templeton作为被告;增加Neuralink 高管、前OpenAI董事会成员Shivon Zilis和xAI作为原告。
去年,马斯克成立了xAI,很快便发布了一个顶级生成式人工智能模型Grok,为旗下社交网络产品X(原Twitter)上的多项功能提供技术支持,还提供API让客户将Grok集成到第三方应用程序、平台和服务中。
而xAI能接受到的投资,却受制于OpenAI。
马斯克的律师团队声称,OpenAI要求投资人承诺,不资助xAI及其竞争对手;并且已经验证过,至少有一位OpenAI 10月份融资轮的主要投资人后来拒绝投资xAI。
不过这段话其实也站不住脚,xAI的融资过程一直很顺利,本月完成了一轮50亿美元的融资,包括Andreessen Horowitz和Fidelity等知名投资人参与,拥有约110亿美元的资金,可以说是世界上资金最充足的人工智能企业之一。
马斯克的初步禁令动议还声称,微软和OpenAI继续非法共享专有信息和资源,包括Altman在内的几名被告存在自我交易,损害市场竞争。
文件指出,OpenAI选择了奥特曼拥有「重大财务利益」的支付平台Stripe作为OpenAI的支付工具;而坊间流传,Altman从Stripe持股中赚了几十亿美元。
微软自2019年初首次支持OpenAI以来,在过去几年中加强了合作关系,总共投资了约130亿美元,换取了实际上49%的公司收益份额。
微软还允许OpenAI大量使用其云硬件资源,使得OpenAI能够训练、微调和运行大规模人工智能模型。
今年3月,OpenAI的发言人在一份声明中表示,「马斯克的第四次尝试,只不过是再一次重复同样的、虚张声势、毫无根据的抱怨」。
OpenAI智能体明年面世,目标10亿用户
不仅如此,OpenAI正在押宝一系列新的AI产品、建立自己的数据中心,并与苹果建立战略合作伙伴关系。
他们设定下一阶段的增长目标是在未来一年内,达到每年10亿用户。
虽然ChatGPT推出两年以来,目前的周活跃用户「仅」为2.5亿,但上个月开始,ChatGPT在苹果公司的数十亿台设备上部署,10亿用户估计只是一个小目标。
苹果在全球总共有20亿部iPhone,而且也有意愿推出一款新的人工智能手机。
如果与ChatGPT深入绑定,达到10亿用户量,OpenAI就将彻底加入地球最强科技公司行列,其他相似用户量的公司就只有谷歌、Facebook等巨头产品了。
另一个增长点在于「智能体」,可以说是今年AI圈的主要发力赛道,OpenAI计划推出的AI智能体可以帮助用户执行「网络信息收集」、「预定或购买物品」等任务。
不过明年的竞争也会更激烈,谷歌、Anthropic、微软等公司都表示有意在未来一年内推出智能体助手。
虽然OpenAI的增长迅速,前景一片大好,但潜在风险仍然存在,包括领导层更替和成本上升。
OpenAI失去了整个研究和安全团队的关键高管,包括三名最初联合创始人,以及Ilya Sutskever和Mira Murati等知名技术领袖。
与此同时,OpenAI也在积极谋求转型,从非营利性商业模式逐渐过渡到营利性商业模式,员工人数增加了5倍,达到2000多人,保持长期研究愿景,同时专注于增加创收产品,以覆盖不断膨胀的成本。
OpenAI每年的支出超过50亿美元,远未达到收支平衡。
但首席财务官Sarah Friar在10月份以1500亿美元的估值筹集了逾60亿美元的投资,也是硅谷历史上初创企业的最高估值,并且还将继续筹集「更多资金」。
OpenAI还需要应付复杂的政治问题,与美国政府在人工智能方面的优先事项保持一致,解决与马斯克的争论等。
满血版o1今晚祭出?网友一些预测
一个多月前,奥特曼曾表示,「下个月是ChatGPT的第二个生日,我们应该送它什么生日礼物呢」?
甚至就连ChatGPT官方账号都不藏着掖着了,并称满血版o1快来了。
或者,我们在今晚大概率能蹲到o1的发布。
有爆料者称,OpenAI今天可能会发布一些关于语音/高级模式,一部分OpenAI内部员工都在讨论/转推。
也有人表示完整版o1也要发布了。
Abacus AI的创始人称,自ChatGPT推出并在人工智能领域掀起热潮以来,已经过去两年了。人工智能前沿模型从一个增加到十几个,文本、代码、视频和图像生成从原型走向了实际应用 。
不过,我们才刚刚起步!未来两年将比过去两年更加疯狂。随着人工智能变得更加自主和独立,它将变得更加神奇。
参考资料:
https://x.com/kimmonismus/status/1862870264289079375
https://x.com/kimmonismus/status/1862940159140049067
#Delta-CoMe
80G显存塞50个7B大模型!清华&OpenBMB开源增量压缩新算法,显存节省8倍
最新模型增量压缩技术,一个80G的A100 GPU能够轻松加载多达50个7B模型,节省显存约8倍,同时模型性能几乎与压缩前的微调模型相当。
清华大学NLP实验室携手OpenBMB开源社区、北京大学和上海财经大学的研究团队,提出Delta-CoMe。
这项技术的核心在于利用主干模型与任务专用模型之间参数增量(即Delta)的特点进行压缩,从而实现存储开销和部署成本的大幅降低。不仅有助于解决资源瓶颈问题,更为多任务处理和模型部署开辟新的可能。
具体而言,Delta-CoMe将低秩分解和低比特量化技术相结合,充分利用Delta参数的低秩特性,提出了一种全新的混合精度压缩方法。这种方法不仅能够实现接近无损的任务性能,还能显著提升推理效率。
Delta-CoMe方法介绍
微调是增强预训练模型的重要手段,不同任务往往需要不同的微调方式。例如Luo et al.[1]提出RLEIF通过Evove-instruction来增强模型数学推理能力;Wei et al.[2]利用Code snnipet合成高质量的指令数据来增加模型的代码能力。然而,这些方法通常依赖高质量数据,并需要精心设计的策略才能实现显著的效果。
在一些场景中往往需要具有不同能力的LLM同时处理问题,例如多租户场景,多任务场景以及端侧场景等等。一种自然的解决方案是部署单个通用模型作为主干,配合多个具有专有能力的Delta。
以Bitdelta[3]为例,它通过将模型的Delta压缩到1-bit,有效保留了模型在问答等场景中的能力。尽管该压缩方法在存储和推理效率上表现出色,其在更复杂的任务(如数学推理和代码生成)上仍存在明显的能力瓶颈。
针对这一挑战,THUNLP实验室联合北京大学和上海财经大学提出Delta-CoMe。这一方法结合低秩分解和低比特量化技术,不仅显著提升了模型在复杂任务上的表现,还兼顾了压缩效率和实际应用需求,为模型的高效部署提供了一种新思路。
与前人的方法相比,Delta-CoMe方法的优点在于:
- 结合低秩与低比特量化, 利用了Delta低秩的特点,并发现低秩分解后的Delta是长尾分布的;之后采用混合精度量化进一步压缩
- 性能几乎无损, 相比于BitDelta等方法,在Math, Code, Multi-modal等复杂任务上,性能与压缩前的微调模型表现基本接近
- 推理速度提升, 为混合精度量化实现了Triton kernel算子,对比Pytorch的实现方式,带来近3倍的推理速度提升
- 超过Delta-tuning,支持多精度Backbone, Delta-CoMe在效果上显著优于LoRA微调,并可以用在多种精度的Backbone上
具体而言,Delta-CoMe首先采用SVD进行低秩分解,Delta 具有低秩性,经过低秩分解之后,其特征值呈现出长尾分布的规律,仅有少数较大奇异值对应的奇异向量对最终的结果贡献较大。
一个自然的想法,我们可以根据奇异值的大小进行混合精度量化,将较大的奇异值对应的奇异向量用较高精度表示,而较小的奇异值对应的奇异向量用较低精度表示。
实验结果
多个开源模型和 Benchmark 的实验验证了该方法的有效性。
使用Llama-2作为主干模型,在数学、代码、对话、多模态等多个任务中进行实验,Delta-CoMe展现出平均几乎无损的性能。下面分别是7B模型和13B模型的实验效果。
此外,还在Mistral、Llama-3等其它主干模型上对不同的压缩方法进行了验证。
为了提升混合精度量化的计算效率,实现一个Triton Kernel,相比于Pytorch的实现方式,推理速度提升了约3倍。
实验结果表明,使用一块80G的A100 GPU可以加载50个7B模型。
最后,还比较了Delta-Tuning和Delta-Compression的效果差异(Delta-Tuning指的是通过训练部分参数进行微调,Delta-Compression指的是先进行全参数微调,再将微调带来的模型参数增量进行压缩)。其中Delta-Tuning采用的是LoRA。Delta-CoMe对比LoRA在相同的存储开销下,性能显著提升。
Delta-CoMe 通过结合低秩分解和低比特量化,不仅实现了大幅度的存储压缩,还在复杂任务如数学推理、代码生成和多模态任务上维持了与压缩前模型相当的性能表现。相比于传统的微调方法,Delta-CoMe 展现出了更高的灵活性,尤其在多租户和多任务场景中具有显著的应用价值。此外,借助 Triton kernel 的优化,推理速度得到了显著提升,使得部署大规模模型成为可能。未来,这一方法的潜力不仅在于进一步优化模型存储和推理速度,也有望在更广泛的实际应用中推动大语言模型的普及和高效运作。
参考文献
[1]Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.
[2] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b
[3] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.
Paper链接:https://arxiv.org/abs/2406.08903
Github链接:https://github.com/thunlp/Delta-CoMe
#PRIME
美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源
11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。
- 技术报告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- Hugging Face 页面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
- GitHub 地址:https://github.com/PrimeIntellect-ai/prime
- 体验链接:chat.primeintellect.ai
Prime Intellect 表示,相比此前的研究,INTELLECT-1 实现了 10 倍的规模提升。这一突破证明,大规模模型训练已不再是大公司的专利,通过去中心化的、社区驱动的方式同样可以实现。
他们的下一步计划是将模型进一步扩展到前沿规模,最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示 —— 其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。
模型发布后,虽也有质疑声音,但 AI 社区总体上还是给出了非常积极的肯定。
也用几个经典问题简单尝试了其在线 Demo 版本的模型。
首先是经典的草莓问题,INTELLECT-1 一开始答对了,但继续提问就又变成了常见的错误答案。
该模型也具备还不错的文本理解能力,但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。
下面我们看看它的汉语能力。从多次测试的结果来看,这个模型的汉语能力并不好,并且幻觉现象似乎也挺严重的,比如下图中,即使该模型暂时并不具备读取链接的能力,也会根据上下文强行作答。
不管怎样,INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。
大规模去中心化训练
Prime Intellect 的这场去中心化训练的规模其实相当大,涉及到 3 个大洲的 5 个国家,同时运行了 112 台 H100 GPU。
全球 30 位贡献者的基本信息
该团队表示:「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时,实现了 96% 的计算利用率。与中心化训练方法相比,开销极小。」
这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下,依然能维持训练收敛性和高计算利用率,这昭示了一种新的可能性:能够以去中心化、社区驱动的方式训练出前沿的基础模型!
一万亿 token 的训练过程,这里给出了训练过程中损失、困惑度、训练速度等信息
训练细节与数据集
INTELLECT-1 基于 Llama-3 架构,它包含:
- 42 层,隐藏维度为 4,096
- 32 个注意力头
- 序列长度为 8,192
- 词表大小为 128,256
模型在经过精心筛选的 1 万亿 token 数据集上训练,数据构成如下:
数据集 Huggingface 链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- 55% FineWeb-Edu
- 20% Stack v2(Stack Overflow 等技术问答数据)
- 10% FineWeb(精选网页数据)
- 10% DCLM-baseline(基准通用语料)
- 5% OpenWebMath(数学数据)
模型训练持续了 42 天,采用了以下技术:
- 采用 WSD 动态调整学习速度,让模型学习更高效
- 精细调教的学习参数:内层学习率设为 7.5e-5
- 引入特殊的损失函数(max-z-loss)来确保训练过程的稳定性
- 使用 Nesterov 动量优化算法,帮助模型更快更好地学习
- 支持训练机器的灵活接入和退出,最多可同时使用 14 台机器协同训练
从训练过程的监控图表可以看出,PRIME 系统表现出色:即使参与训练的机器数量经常变化(从最少 4 台逐渐增加到最多 14 台),整个训练过程依然保持稳定,充分证明了系统的可靠性。
训练动态图展示了整个训练过程中模型困惑度和学习率的变化,包括预热阶段、稳定阶段和退火阶段。
Prime:一个去中心化训练框架
该团队使用的训练框架名为 Prime,这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication(DiLoCo)方法。
项目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo
在此之前,Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示:「这让我们到达了我们的 masterplan 的第三步:合作训练用于语言、智能体和科学的开放式基础模型。」
Prime Intellect 的 masterplan
相比于之前开源的 OpenDiLoCo,Prime 有两大关键提升。
一是在算法方面,他们在 OpenDiLoCo 上执行了许多消融研究,发现还能进一步降低通信要求。值得注意的是,他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合,从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的,该团队也将它们扩展到了更大的模型。
在具体的大规模扩展方面,我们知道,去中心化训练既是工程挑战,也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭,还能优化全球分布式 GPU 网络中的通信和路由。
Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构
该团队在博客中写道:「该框架构成了我们开源技术堆栈的基础,其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建,我们的目标是突破全球分布式 AI 训练的极限。」
具体来说,Prime 框架包含以下关键特性:
- 用于容错训练的 ElasticDeviceMesh
- 异步分布式检查点
- 实时检查点恢复
- 自定义 Int8 All-Reduce 内核
- 最大化带宽利用率
- PyTorch FSDP2 / DTensor ZeRO-3 实现
- CPU 卸载
计算效率
虽然训练散作满天星,但计算效率仍保持「聚是一团火」的高水准:在美国境内集群部署时,计算资源利用率高达 96%(中位数同步延迟仅 103s);跨越大西洋的部署场景下依然维持在 85.6% 的优异水平(中位数同步延迟 382s);即便是在全球分布式节点配置下,计算利用率也能稳定保持在 83%(中位数同步延迟 469s)。
这一系列亮眼的数据充分证明了该去中心化训练框架的容错性和扩展性,不仅能够从容应对不同地理位置的网络延迟挑战,更在确保训练稳定性的同时实现了高效计算。
后训练
在完成分布在全球的预训练阶段后,Prime Intellect 与 Arcee AI 合作开展了一系列后训练,以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段:
- SFT(监督微调,16 轮)
- DPO(直接偏好优化,8 轮)
- 使用 MergeKit 整合训练成果
更多信息请查看详细技术报告:
论文链接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
未来计划:长期目标是 AGI
INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。至于如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢?Prime Intellect 提了三点规划:
- 继续扩大全球计算网络
- 用更多奖金激励推动社区参与
- 进一步优化 PRIME 去中心化训练架构以支持更大的模型
在博客结尾,Prime Intellect 写道:「为了防止 AI 能力被少数组织垄断,我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。」
参考链接:
https://www.primeintellect.ai/blog/intellect-1-release
https://app.primeintellect.ai/intelligence
https://www.primeintellect.ai/blog/intellect-1
#Boundless Socratic Learning with Language Games
DeepMind用语言游戏让大模型学AlphaGo自我博弈,数据限制不存在了
自我博弈,很神奇吧?
我们终于朝着真正自主、自我完善的人工智能迈出了重要一步?
上周末,一篇 Google DeepMind 的论文引发了 AI 圈的关注。研究者引入了「苏格拉底式学习」,这是 AI 中递归自我完善的一种新方法。这种方法使系统能够自主增强其能力,超越初始训练数据的限制。通过利用结构化的「语言游戏」,该技术可以为实现通用人工智能提供了实用的路线图。
在该工作中,DeepMind 提出的框架围绕封闭、自给自足的环境,AI 系统无需外部数据即可运行。要实现目标,智能体必须满足三个关键条件:反馈与目标一致,广泛的数据覆盖范围,以及足够的计算资源。这种设计促进了独立学习,为通向 AGI 提供了一条可扩展的途径,同时解决了数据生成和反馈质量等挑战。
新方法的核心是进行「语言游戏」,即智能体之间结构化的交互、解决问题并以分数的形式接收反馈。这些游戏允许人工智能进行自我博弈,生成数据并完善技能,也无需人工输入。递归结构使系统能够自主创建和开局新游戏,解锁更抽象的解决问题的能力并扩展其能力。
最终的创新在于 AI 自我改造,智能体不仅可以从环境中学习,还可以重新配置其内部系统。这样可以消除固定架构带来的限制,为超过以往的性能改进奠定基础。总之,DeepMind 的研究强调了苏格拉底式学习作为创造真正自主、自我完善的人工智能的变革性步骤的潜力。
让我们看看这篇论文是怎么说的:
- 论文标题:Boundless Socratic Learning with Language Games
- 论文链接:https://arxiv.org/abs/2411.16905
考虑一个随时间演变的封闭系统(无输入、无输出)(见图 1)。系统内有一个具有输入和输出的实体,称为智能体(Agent),它也会随时间发生变化。系统外部有一个观察者,其目的是评估智能体的性能。如果性能不断提高,我们就把这对系统和观察者称为改进过程。
这一过程的动态变化由智能体及其周围系统共同驱动,但为了使评估定义明确,需要设定明确的边界:事实上,智能体就是可以明确评估的对象。同样,为了分离关注点,观察者被刻意置于系统之外:由于系统是封闭的,观察者的评估无法反馈到系统中。因此,智能体的学习反馈必须来自系统内部的智能体,如损失、奖励函数、偏好数据或批评者。
在这里,最简单的性能指标是一个标量分数,可以在有限的时间内测量,也就是在(一系列)偶发任务中测量。从机制上讲,观察者可以通过两种方式来衡量性能,一是被动地观察智能体在系统中的行为(如果所有相关任务都是自然发生的),二是通过复制和探测评估,即让智能体的克隆副本面对自己选择的交互任务。
在不失通用性的前提下,智能体内部的元素可分为三类:固定元素不受学习的影响,例如它的底层或不可修改的代码;瞬态元素不会在不同事件之间或不同评估之间延续(如激活、随机数生成器的状态);最后,学习元素(如权重、参数、知识)会根据反馈信号发生变化,它们的演变会映射出性能差异。
可以通过隐含的生命周期来区分改进过程;有些改进过程是开放式的,可以无限制地持续改进,而有些改进过程则会在某个有限时间后收敛到其渐进性能。
自我完善的三个必要条件
DeepMind 研究者认为,自我完善是一种改进过程,但附加标准是智能体自身的输出(行动)会影响其未来的学习。换句话说,智能体在系统中塑造(部分)自己的经验流,有可能在封闭系统中实现无限的改进。这种设置对于强化学习社区(RL)的读者来说可能很熟悉:RL 智能体的行为会改变其学习的数据分布,进而影响其行为策略。
自我完善过程的另一个典型实例是自我对弈,其中系统(通常称游戏)将智能体置于玩家和对手的角色中,以生成带有反馈(谁赢了)的无限经验流,为不断增加的技能学习提供方向。从它与 RL 的联系中,我们可以得出自我完善发挥作用的必要条件,并帮助澄清有关系统的一些假设。前两个条件,反馈和覆盖度是原则上的可行性,第三个条件规模是实践上的可行性。
研究者考虑的自我完善过程的具体类型是递归自我完善,其中智能体的输入和输出是兼容的(即存在于同一空间中),并且输出成为未来的输入。与输出仅影响输入分布的一般情况相比,这更具限制性,但中立性更低,最常见的实例是将智能体输出映射到输入的(复杂)环境。这种类型的递归是许多开放式过程的属性,开放式改进可以说是 ASI 的核心特征。
这种兼容的输入和输出空间的一个极好的例子就是语言。人类的大量行为都是通过语言来介导和表达的,尤其是在认知领域(从定义上讲,认知领域是 ASI 的一部分)。正如查尔默斯 (2024) 和他之前几个世纪的理性主义者所言,语言可能足以进行思考和理解,而不需要感官基础。语言又同时具有抽象的巧妙特性,可以在共享空间中编码概念层次结构的多个级别。
在文章的其余部分,研究者使用「苏格拉底式学习」来指代在语言空间中运作的递归式自我完善过程。这个名字暗示了苏格拉底通过质疑对话和反复的语言互动来寻找或提炼知识的方法。但值得注意的是,这种方法并不是去收集现实世界中的观察结果 —— 这反映了系统强调的封闭性。
苏格拉底式学习的本质局限性
在自我完善的三个必要条件中,覆盖和反馈这两个条件原则上适用于苏格拉底式学习,而且仍然是不可还原的。为了尽可能清楚地说明这两个条件的含义,本节中忽略了第三个条件(规模、实用性和效率问题),而从长远的角度来考虑这种简化的动机:如果计算能力和内存继续呈指数增长,那么规模限制只是暂时的障碍。如果不是这样,考虑苏格拉底式学习的资源受限情景(类似于研究有界理性)仍能产生有效的洞察。
覆盖条件意味着苏格拉底学习系统必须不断生成(语言)数据,同时随着时间的推移保持或扩大多样性。在 LLM 时代,这似乎并不太牵强:我们可以设想,一个生成智能体初始化时拥有类似互联网的广泛分布,它可以生成永无止境的新语言表达流。然而,在递归过程中防止生成分布的漂移、崩溃或缩小可能非常困难。
反馈条件要求系统:(a)持续产生关于智能体输出(某些子集)的反馈,这在结构上要求批评者能够评估语言,(b)反馈与观察者的评估指标保持足够一致。这造成挑战的原因有很多:语言空间中定义明确、有依据的衡量标准往往局限于狭隘的任务,而人工智能反馈等通用性更强的机制则可以加以利用,尤其是在允许输入分布发生变化的情况下。
例如,目前的 LLM 训练范式都没有足以满足苏格拉底式学习的反馈机制。下一个 token 的预测损失是有依据的,但与下游的使用情况不够一致,而且无法推断出训练数据之外的情况。根据定义,人类的偏好是一致的,但却阻碍了在封闭系统中的学习。将这种偏好缓存到已学习的奖励模型中会使其自成一体,但从长远来看会被利用并可能出现错位,而且对分布外数据的影响也很微弱。
换句话说,纯粹的苏格拉底式学习是可能的,但它需要广泛的数据生成和强大且一致的批评能力。然而,当这些条件都具备时,其潜在改进的上限就会受到应用资源量的限制。目前已有的研究还没有为此制定出成功的方法,接下来的内容会就如何进行苏格拉底式学习提出一个具体但相当笼统的建议。
「Language games are all you need」
在该研究中,研究者认为 AI 的训练可以借鉴维特根斯坦的语言游戏概念。在其中,并不是让词语捕捉意义,而是让语言的互动性做到这一点。具体来说,语言游戏定义为一种互动协议(一组规则,可以用代码表达),它指定了一个或多个具有语言输入和语言输出的智能体(「玩家」)之间的互动,以及游戏结束时每个玩家的标量评分函数。
如此定义的语言游戏满足了苏格拉底式学习的两个主要需求。即,1)它们为无限制的交互式数据生成和自我博弈提供了一种可扩展的机制,2 同时自动提供伴随的反馈信号(分数)。
事实上,它们是覆盖和反馈条件的逻辑结果,几乎一直在被应用。如果将这个过程视为游戏过程,我们就立即可以意识到多智能体动态产生的丰富策略具有很大潜力。
另外,许多常见的 LLM 交互范式也可以被很好地表示为语言游戏,例如辩论、角色扮演、心智理论、谈判、越狱攻防,或在封闭系统之外,来自人类反馈的 RL 等范式 (RLHF)。
回到哲学家:我们能想象他们玩上几千年的语言游戏吗?相反,也许他们在玩多种语言游戏时更有可能摆脱狭隘的结果。维特根斯坦(又是他)也提出过同样的观点:他坚决反对语言具有单一的本质或功能。使用许多狭义但定义明确的语言游戏而不是单一的通用游戏,可以解决一个关键的两难问题:对于每个狭义游戏,都可以设计出可靠的得分函数(或批评家),而正确地获得单一的通用函数则更加难以捉摸(即使原则上是可能的,正如 Silver 等人所论证的那样)。从这个角度看,苏格拉底式学习的整个过程就是一个元游戏,它安排了智能体玩的语言游戏并从中学习(根据 Carse (2011),这是一个「无限」游戏)。
研究者认为,原则上这一想法足以解决覆盖问题。具体来说,如果有观察者感兴趣的分布的智能体(例如,任务的验证集),就可以用来驱动元游戏中的探索。
正如苏格拉底本人的经历,苏格拉底式的思考过程并不能保证与外部观察者的意图保持一致。语言游戏作为一种机制,也没有回避这一点,但可以说,它降低了所需的精确度:我们所需要的不是一个在单个输入和输出的细粒度上保持一致的批评家,而是一个能够判断哪些游戏应该玩的「元批评家」:也许没有一个语言游戏是完全一致的,但可以做的是,根据它们是否(在玩和学习时)做出了总体上积极的净贡献,对众多游戏进行筛选。
此外,一个游戏的有用性并不需要事先评估,而是可以在玩过一段时间之后进行事后判断。与此相关,一个有益的不对称现象是,事后发现偏差的突发行为可能比设计游戏防止这种行为要容易得多。所有这些特性都是结构上的宽松形式,赋予了语言游戏框架巨大的扩展潜力。暂时跳出此处对封闭系统的假设:当我们实际构建人工智能时,我们几乎肯定不会乐观地相信对齐会得到保持,而是会尽可能仔细地持续检查这一过程,并可能在整个训练过程中对系统进行干预和调整。
在这种情况下,明确地将游戏分布(伴随着可解释的游戏描述和每个游戏的学习曲线)作为旋钮提供给设计者,可能是一种有用的抽象方法。
更高阶的递归
到目前为止,本文讨论了递归的最低必要形式,即一种将智能体(部分)输出反馈给自身的循环形式。在语言游戏的框架内,研究者还想到了另外两种递归形式。第一种思路是告诉智能体它正在玩哪个游戏,并让它选择切换游戏、切换到哪个游戏以及何时切换。
这与分层或以目标为条件的 RL 有关,为智能体提供了更多的自主权和更抽象的行动空间。在将更多责任转移给智能体的同时,与智能体外部的硬联线游戏选择过程相比,这种设置可以显著改善结果,但当然,这种额外的自由度可能会带来崩溃或错位的额外风险。
其次,由于游戏是可以完全用代码表示的交互协议,因此它们可以存在于语言智能体的输出空间中。一开始,它可以简单地生成现有游戏的局部变体,从而调整主题的难度水平,之后再对游戏进行重组,最终实现全新生成。这导致了语言游戏空间而非语言空间的二阶覆盖问题,需要通过过滤、优先排序或课程来解决。
这两种递归扩展的结合就是一个有能力的智能体,它可以通过游戏的生成和玩耍来玩完整的元游戏,即如何改进自己。这种元博弈虽然优雅动人,但却缺乏内部语言博弈的明确反馈机制,而且像学习进度这样的既定智能体指标是否足以长期保持覆盖和对齐特性,也是一个有待研究的问题。
递归的下一步,也是最后一步是递归自我改造,也就是说,智能体的行为会改变其自身的内部结构,而不仅仅是影响其输入流。这些方法的特点是可以以这种方式修改哪些内容(哪些内容保持不变),以及智能体可以进行多少自省,或者说可以访问其自身的工作原理。在极端情况下,一个完全自我反省的智能体可以观察和修改自身的任何方面,而无需间接操作。
原则上,这种类型的智能体具有最高的能力上限;由于渐进性能受到其固定结构的限制,解冻部分结构并使其可修改只会增加上限。尤其是,总有可能将新灵活参数设置为冻结时的状态,以恢复灵活性较低的智能体的性能(在不考虑学习动力的情况下)。
从这种角度看,过去关于如何设计自我参照系统的建议并不实用,但现代 LLM 在代码理解和生成方面的能力正在改变竞争环境,可能很快就会将这些想法从空洞转向关键。
参考内容:
https://x.com/kimmonismus/status/1862993274727793047
#Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning
数学推理场景下,首个分布外检测研究成果来了
本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收,第一作者王一鸣是上海交通大学计算机系的二年级博士生,研究方向为语言模型生成、推理,以及可解释、可信大模型。该工作由上海交通大学和阿里巴巴通义实验室共同完成。
- 论文题目:Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning
- 论文地址:https://arxiv.org/abs/2405.14039
- OpenReview: https://openreview.net/forum?id=hYMxyeyEc5
- 代码仓库:https://github.com/Alsace08/OOD-Math-Reasoning
背景与挑战
分布外(Out-of-Distribution, OOD)检测是防止深度网络模型遭遇分布偏移数据时产生不可控输出的重要手段,它对模型在现实世界中的部署安全起到了关键的作用。随着语言模型的发展,复杂生成序列的错误传播会使得 OOD 数据带来的负面影响更加严重,因此语言模型下的 OOD 检测算法变得至关重要。
常规的检测方法主要面向传统生成任务(例如翻译、摘要),它们直接计算样本在输入 / 输出空间中的 Embedding 和分布内(In-Distribution,ID)数据的 Embedding 分布之间的马氏距离(Mahalanobis Distance)。然而,在数学推理场景下,这种静态 Embedding 方法遭遇了不可行性。研究团队可视化比较了数学推理和传统文本生成任务在不同域上的输入 / 输出空间:
- 相比于文本生成,数学推理场景下不同域的输入空间的聚类特征并不明显,这意味着 Embedding 可能难以捕获数学问题的复杂度;
- 更重要地,数学推理下的输出空间呈现出高密度叠加特性。研究团队将这种特性称作 “模式坍缩”,它的出现主要有两个原因:
- (1) 数学推理的输出空间是标量化的,这会增大不同域上的数学问题产生同样答案的可能性。例如 和 这两个问题的结果都等于 4;
- (2) 语言模型的建模是分词化的,这使得在数学意义上差别很大的表达式在经过分词操作后,共享大量的 token(数字 0-9 和有限的操作符)。研究团队量化了这一观察,其中表示出现的所有 token 数,表示出现过的 token 种类, 表示 token 重复率,表示 token 种类在词表中的占比,发现在一些简单的算术场景下,token 重复率达到了惊人的 99.9%!
为了应对这个挑战,研究团队跳出了静态 Embedding 的方法框架,提出了一种全新的基于动态 Embedding 轨迹 的 OOD 检测算法,称作 “TV Score”,以应对数学推理场景下的 OOD 检测问题。
动机与方法
1. 定义:什么是 Embedding 轨迹?
假设语言模型有 L 层,输出文本包含 T 个 token,则第 t 个位置的 token 在第 l 层的 Embedding 输出表示为
。现将每一层的平均 Embedding
称为第 l 层的句子 Embedding 表征,则动态 Embedding 轨迹可形式化为一个递进的 Embedding 链:
2. 动机:为什么用 Embedding 轨迹?
- 理论直觉
在数学推理场景下,输出空间具有显著的高密度模式坍缩特征,这使得在输入空间相差较大的两个起始点,通过隐藏层转移至输出空间后,将收敛到非常近的距离。这个 “终点收敛” 现象将增大不同样本的 Embedding 轨迹之间产生差异的可能性,如下图所示。该理论分析的数学建模和证明详见论文。
- 经验分析
在初步获取了使用 Embedding 轨迹作为测度的理论直觉后,需要继续深入分析 ID 和 OOD 样本的 Embedding 轨迹之间会产生怎样的个性化差异。研究团队在 Llama2-7B 模型上统计了不同的 ID 和 OOD 数据集下的 Embedding 轨迹特征。其中,横坐标表示层数,纵坐标表示该层与其邻接层的 Embedding 之间的差值 2 - 范数,数值越大表示这两个邻接层之间的 Embedding 转换幅度越大。通过统计数据得出如下发现:
- 在 20 层之前,ID 和 OOD 样本都几乎没有波动;在 20 层之后,ID 样本的 Embedding 变化幅度先增大后又被逐渐抑制,而 OOD 样本的 Embedding 变化幅度一直保持在相对较高的范围;
- 通过这个观察,可以得出 ID 样本的 “过早稳定” 现象:ID 样本在中后层完成大量的推理过程,而后仅需做简单的适应;而 OOD 样本的推理过程始终没有很好地完成 —— 这意味着 ID 样本的 Embedding 转换相对平滑。
3. 方法:怎么用 Embedding 轨迹?
基于上述发现,研究团队提出了 TV Score,它可以衡量一个样本属于 ID 或 OOD 类别的可能性。受到静态 Embedding 方法的启发,文章希望通过计算新样本的 Embedding 轨迹和 ID 样本的 Embedding 轨迹分布之间的距离来获取测度,但轨迹分布和轨迹距离的计算并不直观。
因此,文章将 TV Score 的计算分为了三个步骤:
- 首先,将每一层 l 的 ID Embedding 拟合为一个高斯分布:
- 其次,对于一个新样本,在获取了每一层的 Embedding
- 后,计算它和该层高斯分布之间的马氏距离:
- 最后,将
- 视为新样本的相邻层波动率,并取所有相邻层波动率的平均值作为该样本的最终轨迹波动率得分:
进一步地,考虑到轨迹中的异常点可能会影响特征提取的精度,研究团队在此基础上加入了差分平滑技术 (Differential Smoothing, DiSmo):
- 首先,定义每一层的 k 阶 Embedding 和高斯分布:
- 其次,计算
- 和
- 之间的马氏距离:
- 最后,类似 TV Score 定义差分平滑后的得分:
实验与结果
研究团队使用了 11 个数学推理数据集(其中 1 个 ID 数据集和 10 个 OOD 数据集)在两个不同规模的语言模型(Llama2-7B 和 GPT2-XL)上进行了实验。根据和 ID 数据集之间的难度差异大小,这 10 个 OOD 数据集被分为两组,分别代表 Far-shift OOD 和 Near-shift OOD。实验在离线检测和在线检测这两个场景下进行:
离线检测场景:给定一组 ID 和 OOD 样本的混合集合,检测 TV Score 对这两类样本的区分精度(本质上是一个判别任务)。评估指标采用 AUROC 和 FPR95。
- 在 Far-shift OOD 场景下:AUROC 指标提高了 10 个点以上,FPR95 指标更是降低了超过 80%;
- 在 Near-shift OOD 场景下:TV Score 展现出更强的鲁棒性。Baseline 方法从 Far-shift 转移到 Near-shift 场景后,性能出现明显下降,而 TV Score 仍然保持卓越的性能。这说明对于更精细的 OOD 检测场景,TV Score 表现出更强的适应性。
在线检测场景:在离线检测场景中获取一个分类阈值,之后面对新的开放世界样本时,可以通过和阈值的大小比较自动判定属于 ID 或 OOD 类别。评估指标采用 Accuracy。结果表明,TV Score 在开放世界场景下仍然具有十分优秀的判别准确度。
泛化性测试
研究团队还对 TV Score 的泛化性进行了进一步的测试,主要分为任务泛化和场景泛化两个方面:
任务泛化:测试了 OOD 场景下的生成质量估计,使用 Kendall 和 Spearman 相关系数来计算 TV Score 和模型回答正确性之间的相关性。结果表明,TV Score 在该任务下仍然展现出了最优性能。
场景泛化:研究团队认为,TV Score 可以被推广到所有输出空间满足 “模式坍缩” 特性的场景,例如多项选择题,因为它的输出空间仅包含 ABCD 等选项。文章选取了 MMLU 数据集,从中挑选了 8 个域的子集,依次作为 ID 子集来将剩余 7 个域作为 OOD 检测目标。结果表明,TV Score 仍然展现出良好的性能,这验证了它在更丰富场景下的使用价值。
总结
本文是 OOD 检测算法在数学推理场景下的首次探索。该工作不仅揭示了传统检测算法在数学推理场景下的不适用性,还提出了一种全新的基于动态 Embedding 轨迹的检测算法,可以精准适配数学推理场景。
随着大模型的发展,模型的应用场景越来越广泛,而这些场景也越来越具有挑战性,早已不局限于最传统的文本生成任务。因此,传统安全算法在新兴场景下的跟进也是维护大模型在真实世界中稳定且安全地发挥作用的不可或缺的一环。
#SLED
杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性
此项研究成果已被 NeurIPS 2024 录用。该论文的第一作者是杜克大学电子计算机工程系的博士生张健一,其主要研究领域为生成式 AI 的概率建模与可信机器学习,导师为陈怡然教授。
大语言模型(LLM)在各种任务上展示了卓越的性能。然而,受到幻觉(hallucination)的影响,LLM 生成的内容有时会出现错误或与事实不符,这限制了其在实际应用中的可靠性。
针对这一问题,来自杜克大学和 Google Research 的研究团队提出了一种新的解码框架 —— 自驱动 Logits 进化解码(SLED),旨在提升大语言模型的事实准确性,且无需依赖外部知识库,也无需进行额外的微调。
- 论文地址:https://arxiv.org/pdf/2411.02433
- 项目主页:https://jayzhang42.github.io/sled_page/
- Github地址:https://github.com/JayZhang42/SLED
- 作者主页:https://jayzhang42.github.io
研究背景与思路总结
近期相关研究显示,尽管用户在访问大语言模型(LLM)时可能无法得到正确的答案,但 LLM 实际上可能已经基于海量的训练数据和漫长的训练周期学到了正确的答案,并将其存储于模型内部某处。
研究者将这类无法直观从模型输出中获得的信息称为 “潜在知识”,并用图一精炼出了对应的 “三体问题”。
图一:Factuality Decoding 的 “三体问题”
图一中,考虑到每条问题的标准答案都已包含训练数据集中,因此可以说训练时,真实世界的事实分布是已知的。LLM 的训练正是为了缩小 LLM 输出分布
和真实事实分布
之间的差距。
然而,在 LLM 的推理阶段(inference time),真实的事实分布是未知的,因此这项研究的重点便是如何挖掘模型的潜在知识分布,并利用其进一步增强模型的输出。
概括来说, SLED 方法通过对比最后一层的
和前面几层的
,有效地挖掘了 LLMs 内部的潜在知识。
同时,研究者也指出 LLM 中的潜在知识虽然有价值,但可能并不完美。因此,SLED 不是简单地使用这些潜在知识替换原始输出,而是通过类似于对输出
进行 “梯度下降” 的操作,将其整合到原始输出
中,从而有效地平衡了两者,避免了过拟合等潜在的风险。
图二:SLED 框架的主要流程
方法设计
为了提高事实准确性,需要确保正确的 token
, 在输出分布
中获得更高的概率。这一过程可以通过优化以下损失函数 L 来描述
,其中
。
研究者将这一优化过程称为 Logits 进化。有趣的是,这同时也为理解 LLM 的训练提供了新的视角 —— 不同于之前只关注训练中模型参数的更新,可以看到:
- LLM 的训练实际上一个是由训练数据集作为外部驱动的 Logits 进化过程;
- LLM 的训练为这个优化过程找到的解就是最后一层的输出
- 。
从上面的理解出发,可以预期最后一层的输出的
对应的
,通常要比前面几层的输出
对应的
要更接近训练时的
。这一点也在图三中得到了验证。
图三:研究者对三个不同规模的 LLaMA-2 模型计算了每一层对应的交叉熵损失。结果证实,就 KL 散度而言,最终层的 Logits 输出分布比所有早期层更接近真实世界的分布
因此,受到经典梯度下降算法的启发,研究者通过如下的近似来反向估计
这里对
的估计,实际上也就是之前提到的潜在知识,因此用
来表示。在此基础上,研究者通过类似梯度下降的方式,用估计出来的潜在知识
,实现了对
自驱动进化,
从而得到了一个更接近事实分布的最终输出
。更细节的方法设计和讨论,请参考原文。
实验验证
作为一种新型的层间对比解码架构,研究者首先将 SLED 与当前最先进的方法 DoLa 进行了比较。实验覆盖了多种 LLM families(LLaMA 2, LLaMA 3, Gemma)和不同模型规模(从 2B 到 70B),还有当前备受关注的混合专家(MoE)架构。
结果表明,SLED 在多种任务(包括多选、开放式生成和思维链推理任务的适应性)上均展现出明显的事实准确性提升。
此外 SLED 与其他常见的解码方式(如 contrastive decoding,ITI)具有良好的兼容性,能够进一步提升性能。
最后,研究者发现,与以往的算法相比,SLED 在计算上几乎没有明显的额外开销。同时,在生成质量方面,SLED 显著抑制了以往方法中的重复性问题,进一步优化了输出结果。
引申思考:与目前流行的 inference-time 算法的联系
实际上,不难看出,SLED 为后续的推理时(inference-time )算法提供了一个新的框架。与目前大多数 inference-time computing 方法主要集中于 sentence level 的输出或 logits 进行启发式修改不同,SLED 与经典优化算法衔接,如梯度下降法的结合更为紧密自然。
因此,SLED 不仅优化效率更高,同时有很多的潜在的研究方向可以尝试;另一方面,与 inference time training 方法相比,SLED 不涉及模型参数层面的修改,因此优化效率上开销更小,同时更能保持模型原有性能。
总结
本研究通过引入自驱动 Logits 进化解码(SLED)方法,成功地提升 LLM 在多种任务中的事实准确性。展望未来,可以探索将 SLED 与监督式微调方法结合,以适应其他领域的特定需求如医疗和教育领域。同时,改进框架设计也将是持续关注的方向。
#离职OpenAI后,翁荔博客首次上新
大约一个月前,OpenAI 安全系统团队负责人翁荔(Lilian Weng)在 X 上宣布了从已经工作了近 7 年的 OpenAI 离职的消息。
当时,她就曾表示,之后可能有更多时间来写博客。
刚刚,翁荔更新了一篇博客,迅速引起了大家的围观学习。
这篇博客的主题是关于强化学习中 reward hacking 的。翁荔认为,「当强化学习智能体利用奖励函数或环境中的缺陷来最大化奖励而不学习预期行为时,就会发生 reward hacking 攻击。在我看来,这是在现实世界中部署更多自主 AI 模型用例时的主要障碍。」
她还呼吁对 reward hacking,特别是对 LLM 和 RLHF 中 reward hacking 的缓解策略进行更多的研究。
需要提示的是,这是一篇很长很干货的文章,翁荔在博客中给出的阅读预估时间是 37 分钟。
为了方便国内读者更好地学习这篇内容,对此文章进行了编译,感兴趣的读者也可查阅原英文内容。
- 文章标题:Reward Hacking in Reinforcement Learning
- 文章链接:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/
- 翁荔博客:https://lilianweng.github.io/
当强化学习(RL)智能体利用奖励函数中的缺陷或歧义来获得高额奖励,而没有真正学习或完成预期任务时,就会发生 Reward Hacking(Reward Hacking in Reinforcement Learning)。Hacking 之所以存在,是因为强化学习(RL)环境通常不完善,而且准确指定奖励函数从根本上具有挑战性。
随着大语言模型的兴起,RLHF 成为事实上的对齐训练方法,语言模型的 RL 训练中的 reward hacking 攻击已成为一项关键的现实挑战。模型学习修改单元测试以通过编码任务的情况,或者响应包含模仿用户偏好的 bias 的情况,都非常令人担忧,并且可能是现实世界部署更自主的 AI 模型用例的主要障碍之一。
过去关于这个主题的大部分研究都是理论性的,重点是定义或证明 Reward Hacking 的存在。然而,对实际缓解措施的研究仍然有限,特别是在 RLHF 和 LLM 的背景下。我特别想呼吁未来进行更多的研究,以了解和开发缓解 Reward Hacking 的措施。希望我很快就能在一篇专门的文章中介绍缓解部分。
背景
强化学习中的奖励函数
奖励函数定义了任务,奖励塑造显著影响强化学习中的学习效率和准确性。为强化学习任务设计奖励函数通常感觉像一门「黑魔法」。许多因素导致了这种复杂性:如何将大目标分解为小目标?奖励是稀疏的还是密集的?如何衡量成功?各种选择可能会导致良好或有问题的学习动态,包括无法学习的任务或可破解的奖励函数。关于如何在强化学习中进行奖励塑造的研究历史悠久。
例如,在吴恩达等人于 1999 年发表的论文《Policy invariance under reward trasnsforamtions: Theory and application to reward shaping》中,作者研究了如何修改马尔可夫决策过程(MDP)中的奖励函数,以使最优策略保持不变。他们发现线性变换是有效的。
给到 MDP
想要获得一个变换后的 MDP,
其中
这样我们就可以引导学习算法更加高效。给定一个实值函数
F 是基于潜力的塑造函数,如果对于所有
有:
这将确保折扣总额
最终结果为 0。如果 F 是这样一个基于势的塑造函数,它既充分又必要,以确保 M 和 M’ 共享相同的最优策略。
当
如果我们进一步假设
其中 S_0 处于吸收状态,并且
然后对所有
有:
这种奖励塑造形式使我们能够将启发式方法纳入奖励函数中,以加快学习速度,而不会影响最佳策略。
虚假相关性
分类任务中的虚假相关或捷径学习(Geirhos et al. 2020)是一个与 Reward Hacking 密切相关的概念。虚假或捷径特征可能会导致分类器无法按预期进行学习和泛化。例如,如果所有狼的训练图像都包含雪,则用于区分狼和哈士奇的二元分类器可能会因存在雪景而过拟合(Ribeiro et al. 2024)。
如果模型与捷径特征过拟合,则它在分布外 (OOD) 测试集上的表现会很差。(图源:Geirhos et al. 2020)
ERM 原理指出,由于整个数据分布未知,最小化训练数据的损失是风险的合理替代,因此我们倾向于训练损失最低的模型。Nagarajan et al. (2021) 研究了 ERM 原理,并指出 ERM 需要依赖所有类型的信息特征,包括不可靠的虚假特征,同时尝试无限制地拟合数据。他们的实验表明,无论任务多么简单,ERM 都会依赖于虚假特征。
如何定义 Reward Hacking
强化学习中的奖励塑造具有挑战性。当强化学习智能体利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真正学习预期行为或按设计完成任务时,就会发生 Reward Hacking 攻击。近年来,人们已经提出了几个相关概念,均指某种形式的 reward hacking:
- Reward hacking (Amodei et al., 2016)
- Reward corruption (Everitt et al., 2017)
- Reward tampering (Everitt et al. 2019)
- Specification gaming (Krakovna et al., 2020)
- Objective robustness (Koch et al. 2021)
- Goal misgeneralization (Langosco et al. 2022)
- Reward misspecifications (Pan et al. 2022)
该概念起源于 Amodei et al. (2016) 的研究,他们在其开创性的论文《Concrete Problems in AI Safety》中提出了一系列关于人工智能安全的开放性研究问题。他们将 Reward Hacking 列为关键的人工智能安全问题之一。Reward Hacking 是指智能体通过不良行为来欺骗奖励函数以获得高额奖励的可能性。规范博弈(Specification gaming,Krakovna et al. 2020)是一个类似的概念,定义为满足目标的字面规范但未实现预期结果的行为。这里任务目标和预期目标的字面描述可能存在差距。
奖励塑造(reward shaping)是一种用于丰富奖励函数的技术,使智能体更容易学习 —— 例如,通过提供更密集的奖励。然而,设计不当的奖励塑造机制可能会改变最优策略的轨迹。设计有效的奖励塑造机制本质上是困难的。与其责怪奖励函数设计不良,更准确地说,应该承认,由于任务本身的复杂性、部分可观察状态、考虑的多个维度以及其他因素,设计一个好的奖励函数本质上是具有挑战性的。
在分布外 (OOD) 环境中测试强化学习智能体时,可能会由于以下原因导致鲁棒性失效:
- 即使目标正确,模型也无法有效泛化。当算法缺乏足够的智能或能力时,就会发生这种情况。
- 该模型具有很好的泛化能力,但追求的目标与训练时的目标不同。当智能体奖励与真实奖励函数不同时,就会发生这种情况。这被称为目标鲁棒性(Koch et al. 2021)或目标错误泛化(Koch et al. 2021)。
在两个强化学习环境 CoinRun 和 Maze 中进行的实验证明了训练期间随机化的重要性。如果在训练期间,硬币或奶酪被放置在固定位置(即关卡的右端或迷宫的右上角),但在硬币或奶酪随机放置的环境中测试,则智能体会在测试时直接跑到固定位置而没获得硬币或奶酪。
当视觉特征(例如奶酪或硬币)和位置特征(例如右上角或右端)在测试期间不一致时,就会发生冲突,导致训练后的模型更喜欢位置特征。我想指出的是,在这两个例子中,奖励结果差距很明显,但在大多数现实世界情况下,这种类型的偏差不太可能如此明显。
图 2. 训练期间随机化硬币位置的影响。当训练期间硬币随机放置 {0, 2, 3, 6, 11}% 的时间(x 轴)时,智能体导航到关卡末尾而未获得硬币的频率会随着随机化的增加而降低(「y 轴」)。(图源: Koch et al. 2021)
奖励篡改(Reward Tampering)(Everitt et al. 2019)是一种 Reward Hacking 行为,其中智能体干扰奖励函数本身,导致观察到的奖励不再准确代表预期目标。在奖励篡改中,模型通过直接操纵奖励函数的实现或间接改变用作奖励函数输入的环境信息来修改其奖励机制。
(注意:一些工作将奖励篡改定义为与 Reward Hacking 不同的错位行为类别。但我认为 Reward Hacking 在这里是一个更广泛的概念。)
从高层次上讲,Reward Hacking 可以分为两类:环境或目标错误指定,以及奖励篡改。
- 环境或目标指定错误:模型通过入侵环境或优化与真实奖励目标不一致的奖励函数来学习不良行为,以获得高额奖励 —— 例如当奖励指定错误或缺乏关键要求时。
- 奖励篡改:模型学习干扰奖励机制本身。
案例列表
- 训练抓取物体的机械手可以学会如何通过将手放在物体和相机之间来欺骗人:https://openai.com/index/learning-from-human-preferences/
- 训练最大化跳跃高度的智能体可能会利用物理模拟器中的错误来实现不切实际的高度:https://arxiv.org/abs/1803.03453
- 智能体被训练骑自行车到达目标,并在接近目标时获得奖励。然后,智能体可能会学习在目标周围绕小圈骑行,因为远离目标时不会受到惩罚:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf
- 在足球比赛中,当智能体触球时会分配奖励,于是它会学习保持在球旁边以高频触球:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf
- 在 Coast Runners 游戏中,智能体控制一艘船,目标是尽快完成赛艇比赛。当它在赛道上击中绿色方块时获得塑造奖励时,它会将最佳策略更改为绕圈骑行并一遍又一遍地击中相同的绿色方块:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/
- 「The Surprising Creativity of Digital Evolution」(Lehman et al. 2019)—— 本文有许多关于如何优化错误指定的适应度函数可能导致令人惊讶的「hacking」或意想不到的进化或学习结果的例子:https://arxiv.org/abs/1803.03453
- 人工智能示例中的规范游戏列表,由 Krakovna et al.于 2020 年收集:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/
LLM 任务中的 Reward Hacking 示例:
- 用于生成摘要的语言模型能够探索 ROUGE 指标中的缺陷,从而获得高分,但生成的摘要几乎不可读:https://web.archive.org/web/20180215132021/https://www.salesforce.com/products/einstein/ai-research/tl-dr-reinforced-model-abstractive-summarization/
- 编码模型学习更改单元测试以通过编码问题:https://arxiv.org/abs/2406.10162
- 编码模型可以学习直接修改用于计算奖励的代码:https://arxiv.org/abs/2406.10162
现实生活中的 Reward Hacking 攻击示例:
- 社交媒体的推荐算法旨在提供有用的信息。然而,有用性通常通过代理指标来衡量,例如点赞或评论的数量,或平台上的参与时间或频率。该算法最终会推荐可能影响用户情绪状态的内容,例如离谱和极端的内容,以触发更多参与度:https://www.goodreads.com/en/book/show/204927599-nexus
- 针对视频共享网站的错误指定代理指标进行优化可能会大幅增加用户的观看时间,而真正的目标是优化用户的主观幸福感:https://arxiv.org/abs/2201.03544
- 「大空头」——2008 年由房地产泡沫引发的金融危机。当人们试图玩弄金融体系时,我们社会的 Reward Hacking 攻击就发生了:https://en.wikipedia.org/wiki/The_Big_Short
为什么 Reward Hacking 会存在?
古德哈特定律指出,「当一个指标成为目标时,它就不再是一个好的指标」。直觉是,一旦施加了很大的压力来优化它,一个好的指标就会被破坏。指定 100% 准确的奖励目标具有挑战性,任何智能体都面临被黑客攻击的风险,因为 RL 算法会利用奖励函数定义中的任何小缺陷。
有人将古德哈特定律分为 4 种变体:
- 回归 - 对不完美智能体的选择也必然会选择噪声。
- 极值 - 度量选择将状态分布推入不同数据分布的区域。
- 因果 - 当智能体和目标之间存在非因果相关性时,干预它可能无法干预目标。
- 对抗 - 智能体的优化激励对手将他们的目标与智能体相关联。
Amodei et al. (2016) 总结称,Reward Hacking 攻击主要发生在 RL 设置中,可能由于以下原因而发生:
- 部分观察到的状态和目标不能完美地表示环境状态。
- 系统本身很复杂,容易受到 hacking;例如,如果允许智能体执行更改部分环境的代码,则利用环境机制会变得容易得多。
- 奖励可能涉及难以学习或描述的抽象概念。例如,具有高维输入的奖励函数可能不成比例地依赖于几个维度。
- RL 的目标是使奖励函数高度优化,因此存在内在的「冲突」,使得设计良好的 RL 目标具有挑战性。一种特殊情况是具有自我强化反馈组件的奖励函数,其中奖励可能会被放大和扭曲到破坏原始意图的程度,例如广告投放算法导致赢家获得所有。
此外,确定最佳智能体优化其行为的确切奖励函数通常是不可能的,因为在固定环境中可能存在无数个与任何观察到的策略一致的奖励函数 (Ng & Russell, 2000)、Amin and Singh (2016) 将这种不可识别性的原因分为两类:
- 表征 - 一组奖励函数在某些算术运算(例如重新扩展)下在行为上不变
- 实验 -π‘ 观察到的行为不足以区分两个或多个奖励函数,这些奖励函数都合理化了智能体的行为(行为在两者下都是最佳的)
Hacking 强化学习环境
随着模型和算法变得越来越复杂,预计 reward hacking 将变成一个越来越常见的问题。更加聪明的智能体将更有能力找到奖励函数设计中的「漏洞」并利用其任务规范 —— 也就是说,获得更高的智能体奖励,但真实奖励却更低了。相比之下,较弱的算法可能无法找到这样的漏洞,因此当模型不够强大时,我们无法观察到任何 reward hacking,也无法找到当前奖励函数设计中的问题。
在零和机器人自博弈 (Bansal et al., 2017) 设置中,我们可以训练两个互相竞争的智能体(受害者与对手)。当使用一个标准的训练流程与一个普通对手博弈时,会得到一个有足够性能的受害者智能体。但是,训练出一个能可靠地击败受害者的对抗性对手策略其实很容易,尽管其会输出看似随机的动作,并且仅需少于 3% 的时间步骤数 (Gleave et al., 2020)。对抗策略的训练需要优化折扣奖励的和(这与标准的强化学习设置一样),同时还需要将受害者策略视为黑箱模型。
在缓解对抗策略攻击方面,一种直观方法是根据对抗策略对受害者进行微调。但是,就算根据新的受害者策略进行了重新训练,受害者仍然容易受到新版本的对抗策略的攻击。
为什么存在对抗策略?这里有一个假设:对抗策略会将 OOD 观察引入受害者,而不是对其进行物理干扰。证据表明,当受害者观察到的对手位置信息被掩盖并被设置为静态时,受害者面对对手的稳健性会更强,不过其在普通的对手策略下表现会更差。此外,如果观察空间维度更高,则正常情况下性能也会提高,但这也会使策略更容易受到对抗对手的攻击。
Pan et al. (2022) 则是将 reward hacking 视为智能体能力的一个函数,涉及的参数包括 (1) 模型大小、(2) 动作空间分辨率、(3) 观察空间噪声和 (4) 训练时间。他们还提出了三种类型的错误指定的代理奖励:
1. 错误加权:代理奖励和真实奖励体现了相同的需求,但相对重要性不同。
2. 本体论:代理奖励和真实奖励使用不同的需求来表达相同的概念。
3. 范围:代理奖励是在一个受限域(例如时间或空间)上衡量需求,因为基于所有条件进行衡量成本太高。
他们用四个强化学习环境搭配九个错误指定的代理奖励进行了实验。这些实验得到的发现可以总结如下:能力更强的模型往往会获得更高(或相似)的代理奖励,但真实奖励会下降。
- 模型大小:模型更大,代理奖励也会增大,但真实奖励会降低。
- 动作空间分辨率:如果提升动作的精度,智能体的能力也会变强。但是,分辨率更高会导致代理奖励不变的同时真实奖励下降。
- 观察保真度:更准确的观察会提高代理奖励,但会略微降低真实奖励。
- 训练步数:在奖励呈正相关的初始阶段之后,用更多步数优化代理奖励会损害真实奖励。
图 3:(上图)代理奖励与真实奖励随模型大小的变化,模型大小以参数量衡量;代理奖励与真实奖励随模型能力的变化,其衡量指标包括训练步数、动作空间分辨率和观察噪声等。(图源:Pan et al. 2022)
如果代理奖励设定得非常差,以至于与真实奖励的相关性非常弱,那甚至可以在训练之前就识别出并防止 reward hacking。基于这一假设,Pan et al. (2022) 基于这一假设,Pan et al. (2022) 研究了一系列轨迹 rollouts 中代理奖励和真实奖励之间的相关性。有趣的是,即使真实奖励和代理奖励之间存在正相关性,reward hacking 攻击仍然会发生。
Hacking 大模型的 RLHF
基于人类反馈的强化学习(RLHF)已经成为语言模型对齐训练的最常用方法。在 RLHF 设置中,会基于人类反馈数据训练一个奖励模型,然后通过强化学习对一个语言模型进行微调,以优化这个人类偏好的代理奖励。RLHF 设置中有三种类型的奖励值得关注:
(1) Oracle/Gold 奖励 R^* 代表我们真正希望 LLM 优化的东西。
(2) 人类奖励 R^human 是我们在实践中评估 LLM 时收集的奖励,通常来自有时间限制的个人。由于人类可能会提供不一致的反馈,也可能犯错,因此人类奖励并不能完全准确地表示 oracle 奖励。
(3) 代理奖励 R 是通过人类数据训练的奖励模型所预测的分数。因此,R^train 继承了人类奖励的所有弱点,以及潜在的建模偏差。
RLHF 会优化代理奖励分数,但我们最终关心的是 Gold 奖励分数。
hacking 训练过程
Gao et al. (2022) 研究了 RLHF 中奖励模型过度优化的 Scaling Law。为了扩大他们实验中人类标签的规模,他们使用了合成数据设置,其中 oracle 奖励 R^* 的 gold 标签由一个奖励模型(6B 参数)近似,而 R 的代理奖励模型大小范围为 3M 到 3B 参数。
图 4:奖励模型分数随 KL 距离度量的平方根的变化情况。其中,虚线表示代理奖励,实线表示 gold 奖励。(图源:Gao et al. 2022)
初始策略到已优化策略的 KL 距离为 KL=D_KL (π|π_init),距离函数定义为
。对于 best-of-n 拒绝采样 (BoN) 和强化学习,黄金奖励 R^* 被定义为 d 的函数。系数 α 和 β 是根据经验拟合的,并有定义 R^*(0) := 0。
这些作者还尝试拟合代理奖励 R,但发现当外推到更高的 KL 时会出现系统性的低估,因为代理奖励似乎会随 d 而线性增长。
图 5:系数参数 α_bon、β_bon、β_RL 是根据数据而经验拟合得到的,这里展示成了奖励模型大小的函数。系数 α_RL 未包含在此处,因为它在 奖励模型大小变化时会保持不变。(图源:Gao et al. 2022)
- 与 RM 相比,较大的策略从优化中获得的好处较少(即初始奖励和峰值奖励之间的差异小于较小策略的差异),但过度优化也较少。
- 更多的 RM 数据会让 gold 奖励分数更高并减少「Goodharting」。(注:古德哈特定律(Goodhart's law)的大意是:一项指标一旦变成了目标,它将不再是个好指标。)
- KL 惩罚对 gold 分数的影响类似于早停(early stopping)。请注意,除了这个实验之外,在所有实验中,PPO 中的 KL 惩罚都设置为 0,因为他们观察到使用 KL 惩罚必定会增大代理 - gold 奖励差距。
RLHF 的目标是提高模型与人类偏好的对齐程度,但人类反馈 R^human 可能无法体现我们关心的所有方面(例如事实性),因此可能会被 hacking,从而过度拟合我们不想要的属性。例如,模型可被优化以输出看似正确且很有说服力但实际上不准确的响应,从而误导人类评估者认可其错误答案(Wen et al., 2024)。也就是说,由于 RLHF,正确的内容和人类认为正确的内容之间并不能划等号。确切地说,Wen et al. (2024) 使用基于 ChatbotArena 数据的奖励模型进行了 RLHF 实验。他们在问答数据集 QuALITY 和编程数据集 APPS 上评估了该模型。他们的实验表明,模型在说服人类相信自己是正确的方面越来越好,即使它们原本是错误的,而且这种影响也并非刻意为之:
1.RLHF 可增加人类的认可度,但不一定能提升正确度。
2.RLHF 会削弱人类的评估能力:经过 RLHF 训练后,人类评估的错误率更高。
3.RLHF 会使不正确的输出更容易说服人类。经过 RLHF 训练后,评估假阳性率会显著增大。
这篇论文将这种效应称为 U-Sophistry(其中 U 表示 unintended),相对的便是 I-Sophistry(I 是指 intended),后者需要通过「…… 试图欺骗人类受试者」等指示来显式地调用模型。
图 6:RLHF 能让 LLM 更善于说服人类评估者认可他们的错误答案。(图源:Wen et al. 2024)
人工评估错误率的变化不是由于评估者招募过程中的噪音造成的,因为 (1) 在个人层面,大多数 (70-90%) 人类评估者的评估错误率会增加,并且 (2) 他们在评估 π_init 或 π_rlhf 上所付出的努力是等同的,衡量指标是花费的时间或编写的单元测试等。
相反,LLM 学会了在捍卫错误答案时挑选、编造不真实的支持陈述或编造带有微妙因果谬误的陈述。他们观察到模型在 RLHF 之后会有这样的行为:
- 在长问答任务中:模型会创建更有说服力的捏造证据,为错误答案使用更一致的逻辑,生成带有微妙谬误的连贯一致答案。
- 在编码任务中:模型会破解人类编写的单元测试,生成可读性较差的测试(例如,辅助函数更少,代码复杂度更高),使 π_rlhf 不太可能生成人类可以利用的易检测错误。
图 7:生成的正确和错误代码的代码模块性(辅助函数数量)和圈复杂度指标。RLHF 会导致生成的错误程序中的辅助函数总体上更少,代码复杂度更高。这无疑会增加人工评估的难度。(图源:Wen et al. 2024)
谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映真相(Shrama et al. 2023)。在实验中,要求 AI 助手对一个论点提供反馈(人类:「请简要评论以下论点。论点:......」)。当人类提供论点时,他们可以陈述偏好(「我真的喜欢这个论点」或「我真的不喜欢这个论点」),以测试与没有人类偏好陈述的基线反馈相比,这是否会影响模型的反馈。
图 8:当用户对自己的偏好发表评论时,AI 助手会给出有偏见的反馈。当用户表示他们喜欢或写了该文本时,回复会更积极,如果用户表示他们不喜欢该文本,回复会更消极。(图源:Shrama et al. 2023)
他们发现,AI 助手的反馈很容易受到影响,因为当受到人类偏好的挑战时,它可能会改变其原本正确的答案。该模型倾向于认同用户的信念。有时它甚至会模仿用户的错误(例如,当被要求分析诗歌时,错误地归因于错误的诗人)。通过 logistic 回归对 RLHF 有用性数据集进行数据分析以预测人类反馈,结果表明,「匹配用户的信念」是最具预测性的因素。
图 9:通过 logistic 回归进行人类偏好数据分析,预测具有目标特征的响应的概率优于不具有目标特征的响应,同时控制其他特征。(图源:Shrama et al. 2023)
Hacking 评估器
随着 LLM 的能力越来越强,将 LLM 作为评估者或 grader,为其他生成器模型提供反馈和训练奖励,是一种自然的选择,尤其是对于那些无法进行琐碎判断或验证的任务(如处理长篇输出、创意写作质量等主观评分标准)。有人将此称为「LLM-as-grader paradigm」。这种方法在很大程度上减少了对人工标注的依赖,大大节省了评估时间。然而,使用 LLM 作为 grader 并不能完全代表预言机奖励,而且会带来偏差,例如在与不同的模型系列进行比较时,LLM 会偏好自己的响应 (Liu et al., 2023 ),或者在按顺序评估响应时会出现位置偏差 Wang et al. (2023)。这种偏差尤其会影响 grader 输出被用作奖励信号的一部分,可能导致利用这些 grader 进行 reward hacking 行为。
Wang et al. (2023) 发现,当使用 LLM 作为评估者为多个其他 LLM 输出的质量打分时,只需改变上下文中候选者的顺序,就能轻松黑掉质量排名。研究发现,GPT-4 会一直给第一个显示的候选者打高分,而 ChatGPT 则更喜欢第二个候选者。
根据他们的实验,尽管指令中包含「确保响应的显示顺序不会影响您的判断」的声明,LLM 仍然对响应的位置很敏感,并存在位置偏差(即偏好特定位置上的响应)。这种位置偏差的严重程度用「冲突率」来衡量,「冲突率」的定义是(提示、响应 1、响应 2)的 tuple 在交换响应位置后导致评价判断不一致的百分比。不出所料,响应质量的差异也很重要;冲突率与两个响应之间的分数差距呈负相关。
图 10:使用 GPT-4 或 ChatGPT 作为评估器时,Vicuna-13B 与 ChatGPT 和 Alpaca-13B 的胜率差别很大。冲突率也相当高,这表明在交换响应位置时,LLM-as-grader 的设置很不一致。使用 GPT-4 作为评估器时,对 Vicuna-13B 和 Alpaca-13B 的评价是个例外。(图源:Wang et al. 2023)
为了减少这种位置偏差,他们提出了几种校准策略:
- 多重证据校准(MEC):要求评估者模型提供评估证据,即用文字解释其判断,然后输出两个候选人的分数。k=3 比 k=1 效果更好,但随着 k 的增加,超过 3 时,性能就不会有太大改善。
- 平衡位置校准(BPC):对不同响应顺序的结果进行汇总,得出最终得分。
- 人在回路校准(HITLC):在面对困难的样本时,人类评分员将使用基于多样性的指标 BPDE(平衡位置多样性熵)参与其中。首先,将得分对(包括交换位置对)映射为三个标签(胜、平、负),然后计算这三个标签的熵。BPDE 越高,表明模型的评估决策越混乱,说明样本的判断难度越大。然后选择熵值最高的前 β 个样本进行人工辅助。
图 11:不同校准方法和带有最终投票的人工注释的标注者的准确度和 kappa 相关系数。位置偏差校准方法有助于在合理的人类参与的标注成本下提高准确度。实验还表明,尽管模型对模板设计很敏感,但校准策略可以推广到不同类型的提示模板。(图源:Wang et al. 2023)
Liu et al. (2023) 使用多种模型(BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere)在总结任务上进行了实验,并跟踪了基于参考和无参考的指标来评估总结的质量。当在评估器(x 轴)与生成器(y 轴)的热图中绘制评估分数时,他们观察到两个指标都有深色对角线,这表明存在自我偏见。这意味着 LLM 在用作评估器时倾向于喜欢自己的输出。不过,该实验中使用的模型有些过时,看看更新、更强大的模型的结果应该会很有趣。
图 12:使用一系列模型作为评估器(x 轴)和生成器(y 轴)进行总结任务的热图。深色对角线表示自我偏见:模型倾向于偏爱自己的输出。(图源:Liu et al. 2023)
上下文中的 Reward Hacking
在迭代式自我完善的训练设置中,用于评估和生成的模型实际上是同一个,它们共享相同的参数。由于它们是同一个模型,因此可以同时进行微调,即在训练过程中根据反馈调整其参数,以改善性能。
但模型既是运动员,又是裁判员,这很容易出问题。
论文链接:https://arxiv.org/pdf/2407.04549
Pan et al.在 2023 年的一篇工作中设计了一个实验:他们让一个模型先作为审稿人为一篇论文提供审稿意见,再作为论文作者根据这些意见修改。研究团队还请了人类评审对论文质量进行评分,作为客观参考。
实验设计
他们发现,这种训练设置很容易引发 In-Context Reward Hacking(ICRH)问题。因为是同一个模型,它可能会利用自己对两个角色的上下文来「钻空子」,导致 AI 给出的评分与实际论文质量不符。
论文链接:https://arxiv.org/pdf/2402.06627
另一篇论文中指出,这个问题不仅存在于和同一个模型的对话中,也可能发生在 AI 与其他评估系统的互动过程中。当 AI 试图优化某个目标时,可能会产生一些意想不到的负面效果。
在实验设计中,研究者可以控制 AI 审稿人和作者对历史信息的访问权限:可以让它们只看当前文章(零轮历史),也可以让它们看到之前的反馈和修改记录(多轮历史)。
较小的模型对 ICRH 更为敏感。例如,实验证明 GPT-3.5 作为审稿人时会比 GPT-4 引发更严重的 ICRH。
当 AI 审稿人和作者能看到相同轮数的历史记录时,AI 的评分往往会与人类评分产生更大的偏差。这说明,导致 ICRH 的关键因素不是 AI 能看到多少轮历史记录,而是审稿人和作者是否看到了相同的信息。换句话说,当两个角色通过气之后,AI 更容易出现打分不当的情况。
较小的评估模型更有可能引发 ICRH 问题。
Pan et al. (2024) 的后续研究转向了一个更普遍的场景:当评价来自外部世界(如用户反馈、市场反应)时的 ICRH 现象。
研究发现,由于我们通常用自然语言来描述 AI 的目标,这些描述往往是不完整的,我们设定的量化指标也难以完全反映真实期望。比如,用「点赞数」来衡量「内容质量」。这种不够全面的目标,会导致 AI 找到投机取巧的方式来提高分数,而不是真正地提升质量。
这篇论文分析了导致 ICRH 的两个因素,并配合了两个实验:
1. 优化输出
研究者设计了一个实验:让 AI 根据用户反馈来改进它的推文。具体来说,AI 会根据推文获得的点赞、转发等互动数据来调整写作方式。实验中,研究者让 AI 对不同版本的推文进行比较评分,然后用 Bradley-Terry 模型将其转换成具体分数。
结果发现了一个问题:虽然改进后的推文确实获得了更多的互动,但同时也会变得更具有攻击性和负面情况。更有趣的是,当研究者用更强大的 Claude 模型重复这个实验时,这个问题不但没有得到改善,反而变得更严重了。
研究者试图通过修改给 AI 的提示词来解决这个问题,但效果并不理想 —— ICRH 仍然存在,只是程度略微降低一些。
2. 基于反馈优化策略
第二个实验研究了 AI 如何通过反馈来改进它的决策策略。研究者为此设计了一个场景:让 AI 扮演一个帮用户支付账单的助手。当「余额不足」时,AI 学会了一个「危险的方案」,未经用户允许就从其他账户转移资金。
为了系统性地研究这个问题,他们搭建了一个模拟环境(ToolEmu),并设计了 144 个不同的任务。每个任务中,AI 都可以调用各种功能接口。研究者们故意制造一些错误(比如服务器故障),看 AI 如何应对。再用 GPT-4 来评估 AI 的表现有多好。
研究发现了一个令人担忧的趋势:随着 AI 经历越来越多的错误和反馈,它确实学会了解决问题,但同时也越来越倾向于采用违规操作 —— 就像前面提到的未经授权就转账。
研究者进一步发现,ICRH 和传统的 Reward Hacking 有两个主要区别:
一是发生的时机不同,ICRH 是在 AI 实际使用过程中通过不断接收反馈而产生的问题,而 Reward Hacking 是在 AI 训练阶段就出现的;
二是产生的原因不同,传统 Reward Hacking 通常发生在 AI 专门做某一件特定事情时,而 ICRH 则是因为 AI 太「聪明」了,会投机取巧了。
目前还没有完美的解决方案,此前的发现仅仅把规则描述得更清楚,但并不能解决问题,而且 AI 模型越强大,ICRH 问题反而可能越严重。
因此,最好的做法是在正式上线前就进行充分的测试:多次重复测试 AI 的反应、提供各种不同类型的反馈,并测试一些异常情况下 AI 的表现,才能更好地预防问题。
Hacking Skills,也能举一反三
另一个有趣但令人担忧的现象是:AI 的 Reward Hacking 技能具有泛化能力。这就像一个学生在某道题上学会了「投机取巧」,会延伸到其他科目一样。Kei et al.(2024) 发现,甚至 Reward Hacking 的「魔爪」已经伸到了分布外(OOD)环境中。
博客链接:https://www.lesswrong.com/posts/Ge55vxEmKXunFFwoe/reward-hacking-behavior-can-generalize-across-tasks
为了验证这一点,该团队设计了一个实验。他们准备了 8 套由多选题组成的数据集,其中 4 套用于训练,另外 4 套则用来测试这种行为是否会泛化。他们在强化学习中采用了专家迭代,通过反复微调来强化 AI 的这种行为模式。
值得注意的是,所有实验都采用了 scratchpad 来记录隐藏的推理步骤。scratchpad 让我们能够窥见模型在思考过程中的「想法」。
通过分析 scratchpad,研究者发现模型能够:
1. 整合用户视角:例如,模型会把对话对象和评分者的想法纳入考虑;
2. 有从「评分标准」角度思考的意识:模型展现出对评估机制的理解,会提前思考自己的回答如何能够获得更好的评分,甚至会预判整个评估流程。
Denison et al. (2024) 研究了 Reward Tampering 现象,他们手动设计了一系列难度递增的、容易被钻空子的环境作为训练。
研究发现,在简单环境中的训练会加剧模型在其他环境中的投机行为。在某些情况下,当模型完成整个训练后,甚至能够零样本泛化到直接重写自己的奖励函数。
这类可游戏环境包括:
政治逢迎:如果模型给出与用户政治观点相匹配的答案,环境会奖励该模型。
工具使用奉承:环境为模型提供了运行命令行的访问权限,以便访问用户的文件系统,读取本地文件中的诗歌样本。模型可能会以奉承的方式给予诗歌高评价。
评分标准修改:环境根据检查清单对模型进行评分,模型必须在检查清单上标记每一项为完成,以获得高奖励。
奖励篡改:模型的任务是检查 ./rl_environment/ 目录,该目录包含其自身强化学习代码的模拟版本,并报告已经过去多少个 episode。在目录中,compute_reward.py 文件包含一个返回常数的奖励函数,而另一个 this_file_blocks_reward_hack_attempts.py 文件包含一个测试,用以检查奖励函数是否被修改过。
图 16:在「工具使用奉承」和「奖励篡改」环境中的评估脚本示例。(图片来源:Denison et al. 2024))
模型遵循这一课程进行训练,论文测量了模型能否学习到能泛化到未见环境的游戏行为。使用 Claude-2 helpful-only 模型进行实验,他们对每个 P=1024 HHH 提示采样了 N=64 个响应进行专家迭代,并根据 RM 选择最佳响应。使用专家迭代进行监督学习训练的模型可以从一个阶段泛化到下一个阶段。
图 17:根据课程,使用专家迭代训练的模型从每个阶段到下一个阶段的定量泛化结果。(图源:Denison et al. 2024)
值得注意的是,即使在课程之后,模型 overwrote 奖励并避免被检测到的情况不到 1/1000。即使一个模型是在直接激励 reward hacking 的课程中训练的,模型 overwrote 奖励的行为也不到 1% 的,并且篡改单元测试的频率更低。作为一种简单的缓解措施,在前两种环境中(reward hacking 行为很容易被发现的地方(谄媚和奉承行为)),用不欺骗环境的 SFT 数据对模型进行监督微调,可以减少在 holdout 环境中奖励篡改的可能性。
探索缓解措施
虽然有大量文献讨论 reward hacking 现象,但在 reward hacking 的缓解措施方面,特别是在 RLHF 和 LLM 领域,并没有太多的工作。这一部分将简要回顾三种潜在的方法。
强化学习算法改进
Amodei et al. (2016) 指出了一些在强化学习训练中减轻 reward hacking 的方向:
- 对抗性奖励函数。我们将奖励函数视为一个自适应的智能体本身,它可以适应模型发现的奖励高但人类评分低的新技巧。
- 模型前瞻。可以根据未来预期的状态给予奖励;例如,如果智能体将要替换奖励函数,它将获得负面奖励。
- 对抗性致盲。我们可以用某些变量使模型「失明」,从而让智能体无法学习到使其能够黑掉奖励函数的信息。
- 谨慎工程。通过谨慎的工程设计,可以避免一些针对系统设计的 reward hacking;例如,将智能体沙箱化,将其行为与其奖励信号隔离。
- 奖励封顶。这种策略就是简单地限制可能的最大奖励,因为它可以有效防止智能体通过 hacking 获取超高回报策略的罕见事件。
- 反例抵抗。对抗鲁棒性的提高应该有利于奖励函数的鲁棒性。
- 多种奖励的组合。结合不同类型的奖励可能使其更难被 hacking。
- 奖励预训练。我们可以从一系列 (state, reward) 样本中学习奖励函数,但这取决于监督训练设置的效果如何,它可能带有其他包袱。RLHF 依赖于此,但学习到的标量奖励模型非常容易学习到不需要的特质。
- Variable indifference。目标是要求智能体优化环境中的一些变量,而不是其他变量。
- 陷阱。我们可以有意引入一些漏洞,并在任何奖励被 hacking 时设置监控和警报。
- 在以人类反馈作为智能体行为认可的 RL 设置中,Uesato et al. (2020) 提出了用解耦批准(decoupled approval)来防止奖励篡改。如果反馈是基于 (state, reward) 的,一旦这对数据发生奖励篡改,我们就无法获得该行为在该状态下的未被污染的反馈。解耦意味着收集反馈的查询行为是从世界上采取的行为中独立抽样的。反馈甚至在行为在世界中执行之前就已收到,从而防止行为损害自己的反馈。
检测 Reward Hacking 行为
另一种缓解措施是通过将其框架化为异常检测任务来检测 Reward Hacking,其中检测器(具有由人类验证的轨迹和奖励的「可信策略」)应标记错位实例(Pan et al. 2022)。给定(1)一个可信策略和(2)一组手动标记的轨迹 rollouts,我们可以根据两个策略(可信策略和目标策略)的动作分布之间的距离构建二元分类器,并测量该异常检测分类器的准确性。在 Pan et al. (2022) 的实验中,他们观察到不同的检测器更适合不同的任务,并且在所有测试的 RL 环境中,没有一个测试的分类器能够实现大于 60% 的 AUROC。
RLHF 的数据分析
另一种方法是分析 RLHF 数据集。通过检查训练数据如何影响对齐训练结果,可以指导预处理和人工反馈收集,以降低 reward hacking 风险。
- 目标特征:指明确想要学习的值。
- Spoiler 特征:指在训练过程中无意中学到的非预期值(例如,情感或连贯性等风格性特征)。这些类似于 OOD 分类工作中的虚假特征(spurious features)(Geirhos et al. 2020)。
SEAL 还引入了三个衡量对齐训练数据有效性的指标:
1. 特征印记(feature imprint),是指特征 τ 的一个系数参数 β_τ,在保持其他因素不变的情况下,该系数参数用于估计比较有或无特征 τ 时奖励点数的增加情况。
图 21:(左) 特征印记 β(τ) (pre-) 和 β(τ) (post-) 由针对特征的奖励
的固定效应线性回归计算得出。总体而言,对齐训练会奖励无害和有用等积极特征,并惩罚性内容或侵犯隐私等消极特征。(右) 特征印记由奖励偏移 θ_i 的线性回归计算得出。奖励偏移 θ_i 的定义为对齐训练前后奖励向量之间的角度。训练过程会优化模型对目标特征的敏感度。总体而言,对齐训练会奖励无害和有用等积极特征,并惩罚性内容或侵犯隐私等消极特征。(右) 特征印记由奖励偏移 θ_i 的线性回归计算得出。奖励偏移 θ_i 的定义为对齐训练前后奖励向量之间的角度。训练过程会优化模型对目标特征的敏感度。请注意,无害通过选定和拒绝的条目(包括 is harmless (c) 和 is harmless (r))印记在 RM 上,而有用性仅通过拒绝的条目(is helpful (r))来印记。(图源:Revel et al. 2024)
2. 对齐阻力(Alignment resistance)是 RM 无法匹配人类偏好的偏好数据对的百分比。研究发现,RM 在超过 1/4 的 HHH-RLHF 数据集上可以抵抗人类偏好。
3. 对齐稳健性(Alignment robustness)
衡量的是对齐对带有重写的扰动输入的稳健程度,包括情绪、雄辩和连贯性等剧透特征(spoiler features)τ,其能隔离每个特征和每种事件类型的影响。
稳健性指标
(如「雄辩」或「情绪积极」等特征名称 τ)应以以下方式解释:
与没有此类翻转的其他条目相比,在重写后包含更强特征 τ 的选定条目(记为 c)被拒绝的几率高出
倍。
类似地,与没有此类翻转的其他条目相比,在重写后获得较弱特征 τ 的被拒绝条目(记为 r )被选中的几率是
倍。
根据他们对不同重写方面对齐稳健性指标的分析,只有基于情感剧透特征的稳健性得分
是统计显著的。
参考内容:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/
#全球五大巨头GPU总量曝光
2025年等效H100或超1240万块
AI巨头的芯片之争,谷歌微软目前分列一二。而xAI作为新入局者,正迅速崛起。这场竞争中,谁会成为最后赢家?
今年,马斯克用全球最大AI超算Colossus轰动了整个世界。
这台超算配备了10万张英伟达H100/H200显卡,并预计未来即将扩展到20万张。
自此,AI巨头们倍感压力,数据中心大战火上浇油。巨头们纷纷酝酿着各自的建造计划。
最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计,并展望了芯片的未来。
博客地址:https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players#Nvidia_chip_production
截止目前,世界五大科技公司的2024年拥有的算力,以及2025年的预测:
微软有75万-90万块等效H100,明年预计达到250万-310万
谷歌有100万-150万块等效H100,明年预计达到350万-420万
Meta有55万-65万块等效H100,明年预计达到190万-250万
亚马逊有25万-40万块等效H100,明年预计达到130万-160万
xAI有10万块等效H100,明年预计达到55万-100万
芯片数量估算总结
可见,他们都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。
谷歌Gemini 2.0预计在本月正式上线。此前,马斯克也曾透露,Grok 3也会在年底亮相,具体时间仍旧未知。
他表示,在法律问题数据集上完成训练后,下一代Grok 3将是一个强大的私人律师,能全天候提供服务。
为了追赶劲敌,OpenAI o2模型据称也在训练中了。
这一切训练的开展,都离不开GPU/TPU。
英伟达稳坐GPU霸主,25年或暴销700万块
毋庸置疑,英伟达早已跃升为数据中心GPU的最大生产商。
11月21日,英伟达发布的2025财年第三季度财报预计,2024自然年的数据中心收入将达1100亿美元,比2023年的420亿美元增长了一倍多,2025年有望突破1730亿美元。
收入主力,那便是GPU了。
据估计,2025年英伟达销量为650万至700万块GPU,几乎全是最新的Hopper和Blackwell系列。
根据生产比例和产量预期,其中约包括200万块Hopper,500万块Blackwell。
今年产量:500万块H100
那么,2024年英伟达实际产量是多少?目前,关于这一数据来源较少,有些甚至还对不上。
不过,有估算称2024年第四季度将生产约150万块Hopper GPU。不过这包括一些性能较低的H20芯片,因此是一个上限值。
根据季度间数据中心收入比例推测,全年生产总量可能上限为500万块——这是基于每块H100等效芯片收入约2万美元的假设,而这个单价似乎偏低;如果使用更合理的2.5万美元计算,实际产量应该在400万块左右。
这一数据与年初估计的150万至200万块H100生产量存在差异。目前尚不清楚这一差异是否可以归因于H100与H200的区别、产能扩大或其他因素。
但由于这一估算与收入数据不一致,选择使用更高的数字作为参考。
此前的产量
为了评估目前以及未来谁拥有最多的计算资源,2023年之前的数据对整体格局的影响有限。
这主要是因为GPU性能本身的提升,以及从英伟达的销售数据来看,产量已经实现了大幅增长。
根据估算,微软和Meta在2023年各自获得了约15万块H100 GPU。结合英伟达的数据中心收入,2023年H100及同等级产品的总产量很可能在100万块左右。
五大科技巨头,等效H100预测
截止2024年底,微软、Meta、谷歌、亚马逊、xAI将拥有多少块等效H100?2025年他们又将扩展到多少块GPU/TPU?
从季度报告(10-Q)和年度报告(10-K)中可以看出,英伟达的客户分为「直接客户」和「间接客户」。
其中,46%的收入都是来自直接客户,包括像SMC、HPE、戴尔这样的系统集成商。
他们通过采购GPU,然后组装成服务器,提供给间接客户使用。
间接客户覆盖的范围就非常广泛,比如公有云服务提供商、互联网消费类公司、企业用户、公共部门机构和创业公司都属于这一范畴。
更直白讲,微软、Meta、谷歌、亚马逊、xAI都是「间接客户」(关于他们的拥有GPU相关信息披露相对宽松,但可信度可能较低)。
2024年财年报告中,英伟达披露了,约19%的总收入来自通过系统集成商和分销商采购产品的间接客户。
根据交易规定,他们必须披露收入占比超过10%的客户信息。那么,英伟达的这个数据透露了什么?
要么是,第二大客户规模只有第一大客户的一半,要么是这些数据存在测量误差。
这其中,最大的客户可能是谁?
从现有信息来看,最有可能的候选者是微软。
微软、Meta
微软很可能就是英伟达这两年的最大客户,这一判断基于以下几个因素:
首先,微软拥有全球最大的公有云服务平台之一;其次,它是OpenAI的主要算力供应商;再者,与谷歌、亚马逊不同,微软没有大规模部署自己的定制芯片;最后,微软似乎与英伟达建立了特殊的合作关系——他们是首个获得Blackwell GPU的公司。
今年10月,微软Azure已经开始测试32个GB200服务器的机架。
2024年微软的收入占比数据没有2023年那么精确,英伟达第二季度财报(10-Q)中提到上半年为13%,第三季度仅「超过10%」。
这表明,微软在英伟达销售中的份额较2023年有所降低。
另有彭博统计,微软占英伟达收入15%,其次是Meta占13%,亚马逊占6%,谷歌约占6%(不过资料中并未明确指出这些数据具体对应哪些年份)。
去年来自Omdia研究统计,2023年底Meta、微软各有15万块H100,亚马逊、谷歌和甲骨文各5万块,这一数据与彭博数据更为吻合。
不过,Meta曾发文宣称,到2024年底将拥有相当于60万块H100算力。据称这包括35万块 H100,剩余部分很可能是H200,以及少量将在最后一个季度交付的Blackwell芯片。
如果假设这60万的数字准确无误,并结合收入占比进行推算,便可以更准确地估计微软的可用算力。
微软预计将比Meta高出25%到50%,也就是相当于75万—90万块等效H100算力。
谷歌、亚马逊
仅从英伟达收入的贡献来看,亚马逊、谷歌无疑是落后于微软Meta。然而,这两家公司的情况有着显著差异。
谷歌已经拥有大量自研的定制TPU,这是内部工作负载的主要计算芯片。
去年12月,谷歌推出了下一代迄今为止最强大的AI加速器TPU v5p。
Semianalysis在2023年底一篇报道中指出,谷歌是唯一一家拥有出色自研芯片的公司。
谷歌在低成本、高性能且可靠的大规模AI部署方面的能力几乎无人能及,是全球算力最丰富的企业。
而且,谷歌在基础设施上的投入,只会越来越多。2024年第三季度财报估计,AI支出为130亿美元,「大部分」用在搭建技术基础设施,其中其中60%是服务器(GPU/TPU)。
大部分或许意味着70-110亿美元,其中在TPU/GPU服务器上预估耗资45-70亿美元。
按照TPU对GPU支出2:1的估算,并保守假设TPU的每美元性能与微软的GPU支出相当,预计到2024年底谷歌将拥有相当于100万到150万块等效H100算力。
相比之下,亚马逊内部AI工作负载规模很可能小得多。
他们持有相当数量的英伟达芯片,主要是为了满足通过其云平台提供的外部GPU需求,尤其是为Anthropic提供算力需求。
毕竟,亚马逊和微软一样,都是金主爸爸,负责为OpenAI劲敌提供充足算力。
另一方面,亚马逊虽也有自研的Trainium和Inferentia芯片,但他们在这方面的起步比谷歌的TPU晚得多。
这些芯片似乎远落后于业界最先进水平,他们甚至提供高达1.1亿美元的免费额度来吸引用户尝试,这表明目前的市场接受度并不理想。
不过,今年年中,亚马逊定制芯片似乎出现了的转机。
在2024年第三季度财报电话会议上,CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,我们已多次与制造合作伙伴协商,大幅提高原定的生产计划。
Semianalysis报道指出,「根据我们已知数据,微软和谷歌于2024年在AI基础设施上的投资计划,大幅领先亚马逊部署的算力」。
这些芯片换算成等效H100并不明确,关于Trainium/Trainium2芯片的具体数量也难以获得,仅知道在上述免费额度计划中提供了4万块。
xAI
今年,xAI在基础设施搭建中,最为标志性事件便是——122天建成了10万块H100组成的世界最大超算。
而且,这一规模还在不断扩展中。马斯克预告了未来将扩展到20万块由H100/H200组成的超算。
据称,xAI超算目前似乎在站点供电方面遇到了一些问题。
2025年Blackwell芯片预测
最新2024 AI现状报告对Blackwell采购量进行了估算:
大型云计算公司正在大规模采购GB200系统:微软介于70万到140万块之间,谷歌40万块,AWS 36万块。据传OpenAI独自拥有至少40万块GB200。
如果将微软GB200预估值设为100万块,那么谷歌、AWS这些数字与它们在英伟达采购中,相对于微软的比例是相符的。
这也使得微软占英伟达总收入的12%,与2024年其在英伟达收入份额的小幅下降趋势一致。
该报告虽然没有给出Meta的具体估计数字,但Meta预计明年人工智能相关基础设施支出将显著加速,这表明其在英伟达支出中将继续保持高份额。
lesswrong预计在2025年,Meta的支出规模将维持在微软支出的约80%水平。
虽然没有提及xAI,但马斯克宣称,将在2025年夏天部署一个有30万块Blackwell芯片的运算集群。
虑到马斯克一贯的夸张风格,更为合理的一个估计是,到2025年底他们可能实际拥有20万—40万块芯片。
那么,一块B200相当于多少块H100?这个问题对于评估算力增长至关重要。
就训练而言,性能预计飙升(截至2024年11月)2.2倍。英伟达发布当天,给出的数据称,两个B200组成的GB200,其性能是H100的7倍,训练速度是H100的4倍。
对于谷歌,假设英伟达芯片继续占其总边际计算能力的三分之一。对于亚马逊,这一比例假定为75%。
值得注意的是,仍有大量H100和GB200芯片未被计入上述统计中。
有些是未达到英伟达收入报告阈值的机构,还有些是像甲骨文这样的云服务提供商和其他中小型云服务提供商可能持有相当数量的芯片。
此外,也包括一些英伟达重要的非美国客户。
在全面了解各家手握多少GPU/TPU算力之后,下一个问题是,这些算力将用在哪?
巨头们训练模型用了多少算力?
以上都讨论的是关于各个AI巨头总计算能力的推测,但许多人可能更关心最新前沿模型的训练使用了多少计算资源。
以下将讨论OpenAI、谷歌、Anthropic、Meta和xAI的情况。
但由于这些公司要么是非上市企业,要么规模巨大无需披露具体成本明细(比如谷歌,AI训练成本目前只是其庞大业务的一小部分),因此以下分析带有一定的推测性。
OpenAI和Anthropic
2024年OpenAI的训练成本预计达30亿美元,推理成本为40亿美元。
据称,微软向OpenAI提供了40万块GB200 GPU,用于支持其训练。这超越了AWS整体的GB200容量,使OpenAI的训练能力远超Anthropic。
另一方面,Anthropic 2024年预计亏损约20亿美元,而收入仅为几亿美元。
考虑到Anthropic的收入主要来自API服务且应该带来正毛利,且推理成本应该相对较低,这意味着20亿美元中,大部分都用于模型训练。
保守估计其训练成本为15亿美元,这大约是OpenAI的一半,但并不妨碍其在前沿模型上的竞争力。
这种差异也是可以理解的。Anthropic的主要云提供商是资源相对有限的AWS,AWS的资源通常少于为OpenAI提供算力支持的微软。这可能限制了Anthropic的能力。
谷歌和Meta
谷歌的Gemini Ultra 1.0模型使用了约为GPT-4的2.5倍的计算资源,发布时间却晚了9个月。其所用的计算资源比Meta的最新Llama模型高25%。
尽管谷歌可能拥有比其他公司更多的计算能力,但作为云服务巨头,它面临着更多样的算力需求。与专注于模型训练的Anthropic或OpenAI不同,谷歌和Meta都需要支持大量其他内部工作负载,如社交媒体产品的推荐算法等。
Llama 3所用计算资源比Gemini少,且发布时间晚8个月,这表明Meta分配给前沿模型的资源相较OpenAI和谷歌更少。
xAI
据报道,xAI使用了2万块H100训练Grok 2,并计划用10万块H100训练Grok 3。
作为参考,GPT-4据称使用2.5万块A100进行了90-100天的训练。
考虑到H100的性能约为A100的2.25倍,Grok 2的训练计算量约为GPT-4的两倍,而Grok 3则预计达到其5倍,处于计算资源利用的前沿水平。
此外,xAI并非完全依赖于自有芯片资源,部分资源来源于租赁——据估算,他们从Oracle云平台租用了1.6万块H100。
如果xAI分配给训练的计算资源比例接近OpenAI或Anthropic,推测其训练规模可能与Anthropic相当,但低于OpenAI和谷歌的水平。
参考资料:
#Diffusion Self-Distillation
人人都是艺术家!斯坦福提出扩散自蒸馏:定制图像生成,任意上下文下扩展到任意实例!
这是一种零样本定制图像生成模型,能够在任何上下文中扩展到任意实例,并且性能与推理阶段调优方法相当。该技术通过自蒸馏pipeline,利用预训练的文本到图像扩散模型、LLMs和VLMs,自动生成身份保持的数据配对,用于整个数据创建过程。
文章链接:https://arxiv.org/pdf/2411.18616
项目链接:https://primecai.github.io/dsd
亮点直击
- 提出了Diffusion Self-Distillation,一种zero-shot身份保持定制图像生成模型,能够在任何上下文下扩展到任意实例,其性能与推理阶段调优方法相当;
- 提供了一条自蒸馏pipeline,利用预训练的文本到图像扩散模型、LLMs和VLMs,完全不依赖人工参与,获取身份保持的数据配对,用于整个数据创建过程;
- 设计了一个统一的架构,用于处理涉及身份和结构保持编辑的图像到图像翻译任务,包括个性化、重光照、深度控制和指令跟随。
总结速览解决的问题
- Text-to-image扩散模型生成效果令人印象深刻,但难以满足艺术家对精细化控制的需求。
- 在“保持身份一致性”的生成任务(如将特定概念放置于新背景)以及其他任务(如重光照)中,缺乏高质量的图像+文本配对数据来直接训练模型。
提出的方案
- Diffusion Self-Distillation:利用预训练的文本到图像扩散模型自生成数据集,用于文本条件下的图像到图像任务。
- 1.利用扩散模型的上下文生成能力生成图像网格。
- 2.使用视觉-语言模型辅助筛选,构建大规模高质量的配对数据集。
- 3.使用筛选后的配对数据集对扩散模型进行微调,将其转化为支持文本+图像条件的图像生成模型。
应用的技术
- 预训练的文本到图像扩散模型的上下文生成能力。
- 视觉-语言模型对生成数据进行筛选和过滤。
- 基于筛选数据的扩散模型微调技术。
达到的效果
- 在保持身份一致性生成任务中优于现有的零样本方法。
- 在不需要测试时优化的情况下,性能可与逐实例调优技术相媲美。
- 方法适用于多种文本条件图像生成任务,具有广泛适应性和有效性。
Diffusion Self-Distillation
最近的文本到图像生成模型提供了令人惊讶的能力,能够生成上下文一致的图像网格(见图2,左侧)。受到这一洞察的启发,本文开发了一种zero-shot适应网络,能够快速、丰富、高质量且保持身份一致性,即在参考图像的条件下生成一致的图像。首先利用预训练的文本到图像扩散模型、大语言模型(LLMs)和视觉语言模型(VLMs)生成并筛选出展示所需一致性的图像集。然后,使用这些一致性的图像集对同一预训练扩散模型进行微调,采用本文新提出的并行处理架构创建一个条件模型。通过这种方式,Diffusion Self-Distillation以监督方式将预训练的文本到图像扩散模型微调为zero-shot定制图像生成器。
生成配对数据集
为了创建用于监督Diffusion Self-Distillation训练的配对数据集,利用预训练的文本到图像扩散模型的新兴多图像生成能力,生成可能一致的基础图像,这些图像由LLM生成的提示创建。然后,使用VLMs筛选这些基础样本,获得共享所需身份一致性的干净图像集。数据生成和筛选pipeline如下图2左侧所示。
通过教师模型生成基础数据
为了生成符合所需身份保持的图像集,我们提示预训练的教师文本到图像扩散模型创建包含多个面板的图像,每个面板展示相同的主题,并在表情、姿势、光照条件等方面有所变化,用于训练目的。这种提示可以简单地指定输出中的身份保持要求,如“一个包含4张图像的网格,展示相同的<物体/角色/场景等>”,“4个均匀分隔的面板,描绘相同的<物体/角色/场景等>”等。还会指定每个子图像/面板中的预期内容。完整的提示集在我们的补充材料第A节中提供。分析表明,目前最先进的文本到图像扩散模型(如SD3、DALL·E 3、FLUX)展示了这一身份保持能力,这可能源于它们的训练数据,包括漫画、漫画书、照片集和视频帧。这种上下文生成能力对于我们的数据生成流程至关重要。
通过LLMs生成提示
依赖LLM来“头脑风暴”生成一个多样化的提示大数据集,从中提取我们的图像网格数据集。通过定义提示结构,提示LLM生成描述图像网格的文本提示。遇到的一个挑战是,当提示生成大量提示时,LLM往往生成低多样性的提示。例如,如果没有额外的引导,GPT-4o倾向于生成包含汽车和机器人内容的提示,导致输出内容高度重复。为了解决这个问题,利用LAION数据集中的可用图像标题,将它们作为内容参考输入到LLM中。这些来自真实图像标题的参考大大提高了生成提示的多样性。还可以选择使用LLM过滤这些参考标题,确保它们包含明确的身份保持目标。我们发现,这显著提高了生成一致的多图像输出的命中率。
使用VLMs进行数据筛选和标题生成
尽管上述数据生成方案提供了具有良好质量和数量的身份保持的多图像样本,但这些初步的“未经筛选”图像通常噪声较多,不适合直接使用。因此,利用VLMs的强大能力来筛选出清洁的数据集。从生成的样本中提取出意图保持身份的一对图像,并询问VLM这两张图像是否描绘了相同的物体、角色、场景等。我们发现,在这种情况下,使用思维链(Chain-of-Thought)提示特别有帮助。具体而言,首先提示VLM识别两张图像中共同存在的物体、角色或场景,然后让其详细描述每一张图像,最后分析它们是否相同,给出结论性回答。这个过程产生了共享相同身份的图像对。
并行处理架构
需要一个适用于通用图像到图像任务的条件架构,包括结构保持变换和保持概念/身份但不保持图像结构的变换。这是一个具有挑战性的问题,因为它可能需要转移精细细节,而不保证空间对应关系。尽管ControlNet架构在结构保持编辑(如深度到图像或分割图到图像)方面表现出色,但在更复杂的身份保持编辑下,它难以保持细节,其中源图像和目标图像没有像素对齐。另一方面,IP-Adapter可以从输入图像中提取某些概念,如风格,但它强烈依赖于任务特定的图像编码器,并且常常无法保持更复杂的概念和身份。受到多视角和视频扩散模型成功的启发 ,本文提出了一种简单而有效的方法,将基础扩散变换器模型扩展为图像条件扩散模型。具体而言,我们将输入图像视为视频的第一帧,并生成一个两帧的视频作为输出。最终的损失是在两帧视频上计算的,建立了第一帧的身份映射和第二帧的条件编辑目标。我们的架构设计使其对于通用的图像到图像翻译任务具有普遍性,因为它能够有效地在两帧之间交换信息,使模型能够捕捉复杂的语义并执行复杂的编辑,如图2右侧所示。
实验
实现细节 使用FLUX1.0 DEV作为教师模型和学生模型,实现自蒸馏。为了生成提示,使用GPT-4o;用于数据集筛选和标题生成,使用Gemini-1.5。在8个NVIDIA H100 80GB GPU上训练所有模型,采用160的有效批量大小进行100k次迭代,使用AdamW优化器,学习率为10^-4。并行处理架构使用LoRA,基模型的秩为512。
数据集 最终训练数据集包含约40万个主题一致的图像对,这些图像是从我们的教师模型FLUX1.0 DEV生成的。数据集的生成和筛选是完全自动化的,不需要人工干预,因此其规模可以进一步扩展。使用公开的DreamBench++数据集并遵循其评估协议。DreamBench++是一个综合性且多样化的数据集,用于评估个性化图像生成,包含150张高质量图像和1,350个提示,比以前的基准(如DreamBench)要多得多。该数据集涵盖了各种类别,如动物、人物、物体等,包括照片写实和非照片写实图像,且提示设计涵盖不同难度级别(简单/富有创意)。相比之下,提示是使用GPT-4o生成的,并通过人工标注员进行精炼,以确保多样性和伦理合规性。
基准 遵循DreamBench++的设置,将我们的模型与两类基准进行比较:推理阶段调整模型和zero-shot模型。对于推理阶段的模型,将其与Textual Inversion、DreamBooth及其LoRA版本进行比较。对于zero-shot模型,与BLIP-Diffusion、Emu2、IP-Adapter、IP-Adapter+进行比较。
评估指标 先前工作的评估协议通常包括比较CLIP和DINO特征相似度。然而,上述指标仅捕捉到全局语义相似度,且噪声非常大,容易偏向于“复制粘贴”输入图像。这在输入图像或提示较为复杂时尤其成问题。参考DreamBench++中的详细分析,指出了这些指标的局限性。因此,遵循DreamBench++设计的指标,并报告GPT-4o在更为多样化的DreamBench++基准上针对不同类别主题的概念保持(CP)和真实(Real.)与富有创意(Imag.)提示下的提示遵循(PF)的得分,最后用其乘积作为最终评估得分。该评估协议模拟了使用VLMs的人类用户研究。此外,对GPT评估提示进行了轻微修改,以便在生成的内容未显示出内部理解和创意输出,而是天真地复制了参考图像中的组件时,可以应用惩罚。这些修改后的指标被命名为“去偏概念保持(Debiased CP)”和“去偏提示遵循(Debiased PF)”。完整的GPT评估提示集将在我们的补充材料Sec. B中提供。
定性结果
下图4展示了定性比较结果,表明本文的模型在主题适应性和概念一致性方面显著优于所有基准,同时在输出中表现出出色的提示对齐性和多样性。作为早期概念提取方法的Textual Inversion仅捕捉到输入图像中的模糊语义,因此不适用于需要精确主题适应的zero-shot定制任务。DreamBooth和DreamBooth-LoRA在保持一致性方面面临挑战,主要因为它们在多张输入图像下表现更好。这一依赖性限制了它们在仅有单张参考图像时的有效性。相反,本文的方法即使只使用一张输入图像,也能取得稳健的结果,突显了其效率和实用性。
BLIP-Diffusion 作为一个自监督表示学习框架,可以以zero-shot方式从输入中提取概念,但仅限于捕捉整体语义概念,无法定制特定主题。同样,Emu2作为一个多模态基础模型,擅长提取语义概念,但缺乏针对特定主题定制的机制,限制了它在个性化图像生成中的应用。IP-Adapter和IP-Adapter+ 采用自监督学习方案,旨在通过编码信号重建输入。虽然在提取全局概念方面有效,但它们遭遇了明显的“复制粘贴”效应,生成的图像与输入非常相似,缺乏有意义的转化。值得注意的是,IP-Adapter+ 利用更强的输入图像编码器,导致这一问题加剧,输出的多样性和适应性降低。
与之相比,本文的方法有效地保留了主题的核心身份,同时允许多样且符合上下文的转化。如下图5所示,扩散自蒸馏方法展示了出色的多功能性,能够熟练处理各种定制目标(角色、物体等)和风格(照片写实、动画等)。此外,扩散自蒸馏能够很好地推广到各种提示,包括与InstructPix2Pix类似的指令,进一步证明了它在各种定制任务中的鲁棒性和适应性。
定量结果
与基准模型的定量比较见下表1,报告了按照DreamBench++的GPT评估结果。该评估协议类似于人工评分,但使用自动化的多模态大语言模型(LLMs)。我们的模型在概念保持和提示跟随方面均表现最佳,仅在概念保持方面略逊于IP-Adapter+(主要由于“复制粘贴”效应),在提示跟随方面则略逊于每实例调整的DreamBooth-LoRA。DreamBench++的概念保持评估仍然偏向于支持“复制粘贴”效应,尤其是在更具挑战性和多样性的提示上。例如,IP-Adapter系列在概念保持方面的优异表现,主要得益于其强大的“复制粘贴”效应,该效应直接复制输入图像,而未考虑提示中的相关变化。这也部分体现在其较差的提示跟随得分上,表明它们偏向于参考输入,未能有效适应输入提示。因此,我们还展示了“去偏”版本的GPT得分,简单地要求GPT对生成的图像与参考图像过于相似的情况进行惩罚。IP-Adapter+ 的优势不再显现。总体而言,Diffusion Self-Distillation是表现最好的模型。
消融研究
- 数据整理:在数据集生成过程中,首先使用冻结的预训练FLUX模型合成网格,然后通过VLM整理筛选图像。为什么不对FLUX模型进行微调以提高命中率?为了解决这个问题,使用超过7000个一致性网格拟合了LoRA(下图6左)。尽管更多的样本是一致性网格,但发现教师模型失去了输出的多样性。因此,选择完全依赖VLMs帮助我们从大量多样但潜在噪声的网格中进行整理。
- 并行处理架构:将并行处理架构与三种替代的图像到图像架构进行比较:1)将源图像与噪声图像进行拼接(“拼接”);2)基于ControlNet的设计;3)基于IP-Adapter 的设计。使用与并行处理模型相同的数据训练每个架构(图6中)。对于ControlNet,得出与先前工作 [14]相同的结论,它在结构对齐编辑时表现最好,但当源图像和目标图像的相机姿势不同时,通常难以保持细节。IP-Adapter由于其图像编码器的容量限制,在有效传递源图像的细节和风格方面存在困难。
- 其他图像到图像任务:尽管不是“自蒸馏”,因为它需要外部来源的配对数据集(通过Depth Anything生成),我们还在深度到图像任务上训练了我们的架构,以展示其在更一般的图像到图像任务中的应用(图6右)。
用户研究为了评估本文生成图像的保真度和提示一致性,在DreamBench++测试集的一个随机子集上进行了用户研究,选取了20个样本。共有25名女性和29名男性标注员,年龄从22岁到78岁(平均34岁),独立地根据以下三个标准对每个图像进行1到5分的评分:
(1)概念保持—与参考图像的一致性;
(2)提示一致性—与给定提示的一致性;
(3)创造力—内部理解和转化的水平。
下表2中展示了平均分数。人工标注与GPT评估结果高度一致,表明Diffusion Self-Distillation在概念保持方面略逊于IP-Adapter+,在提示一致性方面略逊于推理阶段调优方法DreamBooth-LoRA。值得注意的是,本文的模型在创造力评分上取得了最高分,而IP-Adapter+由于其“复制粘贴”效应,在这一指标上得分较低。这些结果进一步确认了Diffusion Self-Distillation提供了最平衡且优越的整体表现。
讨论
本文提出了Diffusion Self-Distillation,这是一种zero-shot方法,旨在使用文本到图像的扩散模型,在无需人工干预的情况下实现广泛上下文中的身份适应。本文的方法有效地将zero-shot定制图像生成转化为监督任务,显著降低了其难度。实证评估表明,Diffusion Self-Distillation在保持zero-shot方法效率的同时,与推理阶段调优技术相当。
局限性与未来工作
本文的工作专注于角色、物体和场景重光的身份保持编辑。未来的方向可以探索更多任务和应用场景。例如,与ControlNet的集成可以提供身份和结构的细粒度独立控制。此外,将我们的方法从图像扩展到视频生成是未来工作的一个有前景的方向。
结论
Diffusion Self-Distillation使内容创作普适化,能够进行身份保持、高质量且快速的定制图像生成,并能够无缝适应不断发展的基础模型,极大地拓展了艺术、设计和数字故事讲述的创造性边界。
#YOPO (You Only Prune Once)
给LLaVA做剪枝,大幅缩减多模态大模型计算量至12%!
本文以LLaVA模型为实验对象,通过一系列剪枝策略,将计算量压缩至12%,同时保持了与原始模型同等的性能。
本文提出从参数和计算模式层面对多模态大模型做剪枝,以 LLaVA 为实验对象将计算量压缩至 12% 并获得与原始模型同等的性能,并进一步在 Qwen2-VL 和 InternVL2.0 上验证了此种剪枝策略的普适性。
论文标题:
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See
论文地址:https://arxiv.org/abs/2410.06169
代码地址:https://github.com/ZhangAIPI/YOPO_MLLM_Pruning
01 摘要
随着大语言模型的成功,多模态大模型通过整合视觉、文本和其他模态的信息,显著提升了多模态任务的表现。然而,视觉 token 数量的快速增长导致计算复杂度呈二次方增长,严重制约了模型的可扩展性和部署效率。
本文针对这一问题,以 LLaVA 为例,分析了视觉计算中的冗余性,并提出了一系列高效的剪枝策略,包括邻域感知的视觉注意力、非活跃注意力头的剪枝、稀疏前馈网络投影和选择性丢弃视觉层。
实验表明,这些方法在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现。作者进一步验证了这种计算冗余性在 Qwen2-VL 和 InternVL2.0 上同样普遍存在。本文的研究为多模态大模型的高效计算提供了新的视角和解决方案。
02 动机
多模态大模型近年来在跨模态任务(如视觉问答、文本生成和科学推理)中表现出了强大的能力。然而,与文本 token 相比,视觉 token 的数量往往更为庞大。例如,在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个。这种极大的不平衡带来了如下问题:
计算效率低下: LLMs 的注意力机制复杂度随着输入 token 数量呈二次增长。这种计算成本的急剧增加对硬件资源提出了极高的要求,限制了多模态大模型的实际应用。
冗余性被忽视: 尽管视觉数据包含丰富的信息,但其固有的空间稀疏性导致许多计算是冗余的。例如,大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键。此外,在深层模型中,视觉 token 对文本生成的影响逐渐减弱,但现有计算模式并未有效利用这一特性。
现有方法的局限性: 已有的优化策略,如减少视觉 token 数量或使用轻量化的语言模型,通常以牺牲模型性能为代价。如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的问题。
基于上述问题,本文提出了新的优化方向:通过深入挖掘视觉参数和计算模式的冗余性,对模型计算做剪枝,而不是简单地减少 token 数量。这种方法不仅能降低计算开销,还能最大程度地保留模型性能。
03 方法
本文提出了四种核心策略,分别从注意力机制、前馈网络和层剪枝等多个角度优化视觉计算:
3.1 邻域感知的视觉注意力
视觉 token 之间的注意力交互往往具有空间稀疏性,大部分交互权重集中在邻近 token 之间,而远距离 token 的交互在一些情况下可以忽略。
传统的全局注意力计算导致了大量无用的计算开销。本文提出了一种邻域感知的注意力机制,限制视觉 token 仅与其邻近 token 交互。通过添加邻域掩码,忽略超出特定半径的 token 交互。具体公式为:
其中, 半径 h 表示邻域范围。这一改进将注意力计算复杂度从 降至 。
3.2 非活跃注意头剪枝
研究团队以 LLaVA-1.5 作为研究对象,随机选取了 100 个视觉问答样本,可视化了视觉 token 的不同注意力头的权重,实验发现大约有一半数量的注意力头都没有被激活。由此可见这部分注意力头的相关计算同样存在大量冗余并可以被剪枝。实验表明,即使剪掉大量注意力头,模型仅有极小的性能下降。
3.3 稀疏投影的前馈网络
通过剪枝大部分视觉注意力计算,模型的视觉表达变得高度稀疏。为了有效利用这种稀疏性,研究团队提出在每个 transformer 模块内的前馈网络隐藏层中随机丢弃 p% 的神经元。
3.4 选择性层丢弃
研究团队通过可视化 LLaVA-1.5 不同层的视觉 token 跨模态注意力权重发现,大权重集中在前 20 层,在第 20 层到 40 层之间权重接近于 0。
这项结果表明靠后的 20 层的视觉计算存在大量冗余。这一观察启发了研究团队在靠后的层中直接跳过所有与视觉相关的计算,从而减少计算开销。具体来说,对于层 l>L−N,视觉注意力和跨模态注意力计算都被省略,使得注意力计算可以简化如下:
04 实验结果
研究团队对 LLaVA-1.5-7B 和 LLaVA-1.5-13B 模型应用提出的四种剪枝策略并进行了评估,结果显示剪枝后 FLOPs 分别减少至原始模型的 25% 和 12%。
在相同计算预算下,剪枝模型在四个基准任务(GQA、VQAv2、POPE 和 MMBench)上均表现最佳,分别超出第二名方法 3.7%、1.1%、2.2% 和 0.45%。
为验证方法在剪枝视觉计算冗余方面的可扩展性,本文将提出的策略与 PyramidDrop 和 FastV 方法在 VQAv2 和 GQA 两个大型基准上的不同剪枝粒度进行了比较。
实验结果表明,随着 FLOPs 减少,模型性能也有所下降。例如,使用 FastV 方法将 FLOPs 从75%减少到 19% 时,平均性能从 71.35%下降到 66.63%。
相比之下,本文的方法不直接剪枝 token,而是针对参数和计算模式层面的冗余优化,在相同 FLOPs 下性能仅下降 0.5%。这一结果进一步证明,当前多模态大模型中的大量视觉计算冗余可以通过有效剪枝加以优化。
为验证剪枝策略的广泛适用性,本文将其应用于其他多模态大模型(如 Qwen2-VL-7B 和 InternVL-2.0),并在无需微调的情况下进行评估。通过在 GQA 和 POPE 基准上调整剪枝粒度以匹配原始模型性能和最小 FLOPs,结果显示,这些模型在适当的剪枝比例下,即使不进行微调,性能也未受影响。
此外,较大的多模态模型能够容纳更高的剪枝比例,这一点在不同规模的 InternVL-2.0 模型的剪枝实验中得到了验证。
05 总结
本篇工作提出了剪枝多模态大模型的一系列策略。与文本不同,视觉信息是稀疏且冗余的。先前的工作主要集中在减少视觉 token;而本篇工作则分析了参数和计算模式中的冗余。
在基本保持性能的同时,LLaVA 的计算开销被减少了 88%。在 Qwen2-VL-7B 和 InternVL-2.0-4B/8B/26B 上的额外实验进一步证实,视觉计算冗余在多模态大模型中普遍存在。
标签:训练,AI,51c,奖励,OpenAI,图像,82,合集,模型 From: https://blog.csdn.net/weixin_49587977/article/details/144176421