#支小宝
支付宝突然推出新App,竟想用AI让日常生活开挂
只是装了一个 App,整个生活就 AI 了 。
家人们,支付宝已经这么「炸场」了吗?
输入「买一张周日的高铁票,从北京到武汉, 下午出发,行程时间最短的一趟」, 点击三次,等待数秒,购票成功!以前跳转几个页面、点击十几下才能搞定,感觉像是一个段子。
,时长00:13
随着国内各大互联网平台纷纷推出专门的 AI 原生应用,国民级应用支付宝也向等待已久的市场交出答卷——一个全新的 AI 原生应用「支小宝」。
不少 AI 原生应用像一个全能助手,你可以问任何开放性问题,TA 都能回答,尽管也不那么笃定。
但「支小宝」不同,作内首款办事型 AI 生活管家,TA 生动展示了大语言模型的应用如何从理解( Chat )转向采取实际行动( Act )。
支付宝已经诞生 20 年,每天都有数亿人用它支付、出行、理财、就医、办事。做普通人的「生活百宝箱」,也一直是它的底色。而今,进入 AI 时代,「支小宝」正接力支付宝,希望人工智能也能像二维码服务一样,未来惠及每一个普通人。
一、只要一句话,生活就 AI
乍一看, AI 原生应用就和移动互联网原生应用(支付宝)很不同。
单一蓝色的配色方案,配以极简的界面设计,让人倍儿感清爽。「此刻」、「对话」 分别对应「支小宝」两个核心能力,主动陪伴和跑腿办事。「智能体」示意「支小宝」未来要交很多朋友。
一个对话框「包打天下」:只要你一句话,叫车、订票、充话费服务立刻直达。
体验一番后发现,日常就这样被大模型给摆平了。
早上叫醒打工人的不是梦想,而是咖啡,只用说句「点杯瑞幸咖啡的生耶拿铁,到店取」,搞掂!
,时长00:08
「支小宝」会将取餐码,连同天气和要闻「写到」便利贴上,贴到「此刻」公告栏。
车站附近扫码取咖啡。发现车快来了,点开「随身口令」,「我要坐公交」,乘车码立刻弹出来。
本着「能动手就不要动口」的精神,召唤刚需服务的「口令」已经进化成模版。
,时长00:18
早会完毕,接到下周出差的任务,只需在对话框说清要求,如出发地、目的地、时间、甚至票价高低,就能一键搞定,身份证号都能帮你填好。
午饭时间,「此刻」自动更新到中午状态,前几天网购的包裹已经到了。
天气太热,上个月电费花了多少?打开一看,不出所料,充值缴费多半都是电费支出。
充话费、给闺蜜转账,啥都不用自己填, 「支小宝」直接搞定。
晚上,依旧咳嗽不止,白天还发烧,该挂什么科?「支小宝」请来健康医生作答,确认科室后,直接将医院挂号入口找了出来。
,时长00:08
过去多次点击才能完成的事儿,现在只需一句话,AI 就能帮你办好。很多生活百科问题,「支小宝」也能整合网络内容回答你。
通过「对话」,你可以享受一句调动日常服务的快感。进入「此刻」,因为拥有场景感知系统,「支小宝」会基于你的日常习惯、空间位置主动给到陪伴。
TA 就像一个聪明的公告栏,实时将 To-do list 事项更新至此。除了实时更新的天气和新闻,快到地铁站了,乘车码会自动冒出来;快递到了,取件码会被贴在首页。如果你在黄山,请出「智能体」里的「黄小松」就能获得更地道的本地服务。
,时长00:14
用得越多,TA 越懂你。经常打车去某个地方,「打车去XX」就会出现在「随身口令」中。
二、 用硬科技狠活儿满足最接地气的需求
「支小宝」有点迷惑性。
当产品体验丝滑到「无感」后,人们反而容易忽视沉淀在下面的深刻技术,甚至会有「这也不难做到」的错觉。
没有底层的模型和算法能力创新,就不可能有产品上的「一键上翻支付宝百万级小程序」、「让 8000 万数字生活服务『触手可得』」。
和大模型理解用户意图后直接调用商家接口的做法不同,「支小宝」使用了一个名为 ACT(Transformer for actions )的智能服务技术,让智能助理具备屏幕感知与仿真执行能力,就像让 AI 有了「眼睛」和「手脚」,模拟人类交互(如点击、滚动和输入)下单、订票。
ACT 会先利用大语言模型来理解用户的自然语言需求,然后将其转化为一系列具体的操作指令。这使得用户无需手动操作多个界面,只需用语言表达他们想要的东西即可。为了实现这一目标,支付宝在多个方面进行了探索和创新。
首先,支付宝实现了多模态数据采集,除了行为数据,还有页面的图片、数字、按钮、输入框等各种元素,使系统能够「看到」并理解当前的用户界面。这就像给机器人装上了眼睛,让它能够准确地在界面上操作。
有了「眼睛」还不够,跑腿办事还得有「四肢」,围绕支付宝框架和容器能力,他们自建了一套仿真执行能力,针对性地解决了在支付宝 App 上做仿真执行的问题。
为了提供更好的用户体验,ACT 采用了「离屏」方案,将整个操作过程隐藏在用户视线之外。这样,用户就不会看到中间的操作过程,体验更加流畅。
除了这些会见诸媒体报道的底层创新,更多技术和能力沉淀在了超级应用里。
为了提升大模型的行动力,支付宝还优化了 Function Call(函数调用)。通过采用函数表达和显式推理等高级 Prompt 技术,显著提升了大模型理解和调用合适工具的能力。更值得一提的是,他们还利用实际业务场景的复杂数据来训练模型,这大大增强了模型的「实操」能力。
作为一个泛生活服务数字平台,支付宝的服务生态非常丰富。现在,借由 AI 将平台 8000+ 数字生活服务、400万+ 小程序重新连接起来,这一举措堪比支付宝当初通过一张张二维码构建起移动支付网络,对工程化落地能力提出了极高要求。
而系统工程能力正是中国这些日活过亿超级应用的强项。「亚运数字火炬手」活动吸引了超过 1 亿人参与,「五福节」活动更是支持了 6 亿人次的 AI 互动,这些成功案例不仅证明了支付宝在处理海量用户请求方面的卓越能力,更展示了其在解决大模型应用规模化落地中的关键问题,如算力支撑和成本控制等方面的领先实力。
ACT 正在从端侧渲染向端云协同渲染过渡。这种转变虽然工程复杂度很高,但对于「支小宝」这类对响应速度要求极高的产品来说至关重要。特别是 ACT 技术所需的容器级别云渲染,比起「五福节」中使用的单纯界面渲染要复杂得多,对工程能力的要求也更高。
三、支付宝的「内生」:
不止于 All in AI,而是 AI in All
二十年来,中国人的购物方式和日常生活发生了翻天覆地的变化。人们可以使用二维码移动支付,而不必再使用信用卡。手机上不仅能买机票、电影票,还能打车、缴费、挂号甚至领结婚证。支付宝成了「生活百宝箱」,但从「百宝箱」立刻翻出你要的东西,也是不易。
今年4月,支付宝将 AI 引入整个平台。在首页开启测试全新 AI 产品支付宝智能助理(「支小宝」前身),同时在多个场景接入了智能助理:搜索、出行频道、市民中心。
拉下支付宝 App 首页,就能唤起,起到「App 智能导航」的作用。后因探索 AI 原生应用,为用户提供更极致的体验,又有了独立 App「支小宝」。
由此可见,ChatGPT 和 LLMs 大热 ,每个公司都会选择最合适自己的方式跟进。
OpenAI、Anthropic、Mistral 等将聊天机器人作为一个神奇的通用界面,追逐一个可以提问任何开放性问题的全能助手。而支付宝给出了另一种选择,转向更加务实的应用层,看看能帮助用户解决什么问题。
选择利用其现有的产品生态和经过市场验证的刚需(衣食住行)落地新技术,支付宝降低了试错成本,还能更快地获得市场反馈。即便某些产品可能失败,也能获得宝贵经验,尝试越多越有利。
因此,支付宝选择的第一个方向是「内生」,用 AI 焕新整个平台,不止于All in AI,而是 AI in All。他们并不声称,新的基础模型在所有方面都是最好的,但对于他们想要焕新的功能来说,一定要足够好。
其实,找到一个合适场景,把先进技术变成一个普惠服务,一直是支付宝最擅长的。蚂蚁集团 CTO 何征宇说过,「支付宝过去和今天的技术发展思路是一样的。」
这款国民应用今日之大成,不是基于「上帝视角」的预先设计,无非是见山修路,见河搭桥,虽然也在激烈的竞争中走过弯路,但有一点始终没变:我能为用户解决什么问题?如何让服务更简单、更敏捷?围绕核心业务体验,把硬核技术吃透。
当然,因为内核是智能体(AI Agent),「支小宝」的未来并不像它带来的体验那么「简单」。
「支小宝」能以多种形式承载并服务用户,透过专业智能体的深度连接,用户会感受到服务体验的代际升级。但,这也需要千行百业和无数 ISV 一起来「种草」。
今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划,并推出了一站式智能体开发平台「百宝箱」,依托智能体构建能力,商家机构可 0 代码、最快 1 分钟创建专属服务智能体,并一键发布到支付宝生态圈。
今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划。
此前,支付宝已经开始打样。
他们携手安徽黄山风景区,打造了国内首个「全程 AI 伴游」景区。外地游客抵达黄山后,打开「支小宝」就能快速进入黄山智能体,开启 AI 伴游。
支付宝和浙江卫健委联合推出的数字健康管家「安诊儿」,背后也是一个连接多个医院与机构的智能体生态。
二十年前,支付宝发明了快捷支付,它对整个中国移动支付发展的贡献要在很多年后才会显现出来。二十年后,支付宝设想了一种新生活,演化的进度条开始读取中。
#把Llama训成Mamba
性能不降,推理更快!
近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。
先来看一张其乐融融的图片(一眼AI):
右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。
至于到底能不能其乐融融,咱就不管了,之所以有此场景,是因为Mamba方面又搞出了有意思的研究:
——如何把Llama变成Mamba?
论文地址:https://arxiv.org/pdf/2408.15237
代码地址:https://github.com/jxiw/MambaInLlama
近日,来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作,将Llama这样的大型Transformer提炼成了Mamba模型,
并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。
为什么要把Llama变成Mamba?
因为从头开始训练一个大模型太贵了。
Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。
目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE),以及NVIDIA的Hybrid Mamba2模型(8B)。
不过世界上有那么多成功的Transformer大模型,而知识就包含在这些模型参数里。
如果能够锁住知识,同时把Transformer微调成Mamba,不就解决问题了?
在本文中,研究人员结合渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法达成了这一目标。
光是变大还不够,
在性能匹配Transformer的前提下,速度也要够快才行。
Mamba凭借固定的推理开销,在长序列中的优势明显,但Transformer这边也是有推理加速方案的,比如推测解码。
而由于Mamba本身的结构特性,不能直接应用这种方案,所以作者设计了全新的算法,并结合硬件的性质来实现基于Mamba的推测解码。
最终,研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型(混合Mamba和Mamba2),且性能与蒸馏之前的标准模型相当。
整个训练过程只使用了20B的token,效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型,以及使用3.5T个token训练的NVIDIA Hybrid Mamba2模型相媲美。
从 Transformer 到 Mamba
在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。
所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。
额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数初始化。
之后就是SSM的运算过程,再通过投影和累加得到输出。
模型架构和训练
下图给出了模型的架构,因为Transformer的知识存在于MLP层,所以冻结这部分参数。
除了用线性RNN层(Mamba)替换掉注意力头,还有一些组件需要处理,比如跨头共享键和值的分组查询注意力(GQA)。
知识蒸馏(Knowledge distillation,KD)是一种常用的压缩技术,用来训练模仿较大模型(teacher)行为的较小网络(student)。
根据经验,这里采用逐步替换Attention层的策略,先是每2层进行蒸馏,然后每4层继续蒸馏......
监督微调
有两种常见的蒸馏方法。一种方法是使用word-level的KL散度,此时训练student模型去匹配teacher模型输出的完整概率分布。
第二种方法是序列级知识蒸馏(SeqKD),直接使用teacher模型的输出作为ground truth来训练student模型(也称为伪标签)。
这里θ是student模型的可训练参数,α和β分别控制序列和词的loss项的权重。
偏好优化
LLM指令调优的第二阶段是使其符合用户偏好。这个阶段,使用一组期望的偏好对来改进模型的输出。
优化的目标是使奖励模型最大化,同时保持产生的输出接近参考模型。
通常,参考模型使用上一步监督微调后的模型。这里因为是蒸馏,直接可以用teacher模型:
偏好模型的奖励函数定义取决于所使用的方法,本文采用直接偏好优化(DPO),通过直接梯度更新有效地到达优化目标。
DPO表明,对于给定的提示x ,如果我们能够获得preferred和dispreferred两种输出,就可以将这个优化问题重新表述为:
这种优化可以在序列级别上执行,让teacher模型和student模型一起对preferred和dispreferred输出进行评分,然后反向传播给student模型。
推测解码
经过上面的一套小连招,模型转换就搞定了,下面开始想办法应用Transformer那边的推测解码。
推测解码(Speculative Decoding)可以简单理解为下面这张图。
Transformer做推理的时候,除了要处理不断变长的KV cache之外,计算效率也是个问题。
因为显卡的设计是计算高于访存的,具体到计算单元就是做矩阵乘法。
而推理的时候每次只能进入一个词向量,显卡的很多计算就被浪费了。
推测解码给出的解决方案是,使用一个小模型做生成,然后拿显卡多余的计算做验证。
小模型跑得快,可以一口气生成很多输出向量,但是可能效果差一点。这时候用大模型作为验证,一次计算之前生成的很多个向量。
所以小模型串行跑得快,大模型可以并行计算跑得也快,遇到验证不通过的就直接回滚,整体上提高了推理的速度。
Transformer可以方便地回滚,因为KV cache跟时间是一一对应的,但Mamba这边只有一个当前的中间状态ht,你总不能把所有中间状态都存起来吧。
为了解决这个问题,研究人员设计了下面的算法:
简单来说就是每次使用小模型(draft model)生成一组输出,然后大模型(verification model)验证这一组输出,根据验证匹配的位置来更新需要保存的中间状态。
我们可以从下面的伪代码了解详细的过程:
每次生成K个草稿输出,验证模型通过MultiStep函数返回K个真正的输出,以及上一次校验成功位置的cache(中间状态hj)和本次最后位置的cache(hk)。
Multi-Step内核的性能特征
通过FirstConflict函数找到最后匹配(校验成功)的位置,如果所有都匹配,则cache可以更新到最后的hk,否则就只更新到上一次的hj。
兵马后动,粮草先行,不耽误输出和校验,同时只需要多存储一个中间状态。
当然,如果草稿模型也用Mamba的话,算法的推测部分会变得复杂一些,因为草稿模型需要重新计算上一次迭代中验证成功位置的状态。
硬件特定优化
下面使用Mamba 7B和 Mamba 2.8B作为目标模型进行推测实验。
最初,作者搞了一版简单的算法实现,结果在Ampere架构的GPU(3090)上面效果显著,Mamba 2.8B获得了1.5倍的推理加速, 同时有60%的接受率。
但是这种实现方式在H100 GPU上不太好使,主要是因为GEMM操作的速度更快了,使得缓存和重新计算产生的开销更加明显。
所以,作者通过融合内核以及调整实现方式来优化算法。
对于验证模型,首先从缓存中重新计算之前的步骤,然后对新的草稿token序列进行多步解码,最后在单个内核中进行缓存。
对于草稿模型,重新计算、解码和缓存也融合在单个内核中。最终实现了上表中的加速效果。
实验
研究人员使用两个LLM聊天模型进行实验:Zephyr-7B和Llama-3 Instruct 8B。
采用三阶段蒸馏。在第一阶段,使用UltraChat和UltraFeedback作为种子提示,并使用teacher模型生成伪标签。
使用AdamW优化器训练模型,β=(0.9,0.98) ,批量大小64。先使用线性学习率预热,然后进行余弦退火。
第二阶段,在一个epoch中使用SFT在GenQA、InfinityInstruct和OpenHermes 2.5数据集上对模型进行监督微调,采用与Zephyr相同的超参数。
最后一个阶段,对于从Zephyr中提取的模型,在UltraFeedback数据集上使用DPO与标准模型进行蒸馏对齐。
过程中只在第一阶段冻结MLP层,后两个阶段所有参数都进行训练。
作者表示,通常只需要在8卡80G A100上运行3到4天,即可重现本文的结果。
参考资料:
https://arxiv.org/abs/2408.15237
#多智能体强化学习
论文第一作者是北京大学人工智能研究院博士生马成栋,通讯作者为人工智能研究院杨耀东助理教授。人工智能研究院多智能体中心李阿明研究员和伦敦国王大学杜雅丽教授为共同第一作者。这一成果首次在大规模多智能体系统中实现了高效的去中心化协同训练和决策,显著提升了人工智能决策模型在大规模多智能体系统中的扩展性和适用性。
论文链接:https://www.nature.com/articles/s42256-024-00879-7
在大规模多智能体系统中实现高效的可扩展决策是人工智能领域发展的重要目标之一。多智能系统主要以庞大的智能体交互数据为基础,利用大量计算资源驱动每个智能体学习如何与其他智能体合作执行复杂任务,其核心范式是多智能体强化学习。近年来,这一领域取得了显著的进展,诞生了以游戏人工智能为代表的一系列应用。现阶段两种主要的学习范式是中心化学习和独立学习,中心化学习要求每个智能体都具有全局观察能力,这大幅度增加了算法复杂性和通信成本,降低了在大规模系统中的可扩展性,而独立学习虽然降低了系统和算法的复杂性,但学习过程往往不稳定,导致决策性能较差。
值得注意的是,在游戏以外的更加真实的场景中,都存在一些客观的交互限制和不得不考虑成本因素,这使得现有方法难以扩展到大规模真实世界多智能体系统中。一个简单的例子是,当在城市交通系统中控制交通信号灯时,频繁的大规模通信操作容易增加功率损失和被信号干扰的概率,并且计算复杂性将随着交通灯数量的增多而指数级增加。因此,有必要设计能够在有限数据和客观通信约束下,将决策能力扩展到包含大量智能体的复杂真实系统中的多智能体强化学习方法。
这项研究正是以此出发点,降低了现有多智能体学习方法对于全局通信和大量交互数据的依赖性,实现了强化学习算法在复杂的大规模系统中的广泛部署与高效扩展,朝着可扩展到大规模系统的决策范式迈出了重要一步。
图 1,中心化学习和独立学习的区别及该研究的出发点和所涉及到的网络化系统类型
在这项研究中,研究团队对大规模多智能体系统进行了以智能体为单位的动力学特性的解耦,将智能体之间的关系描述为一种拓扑连接结构下的网络化关系,其中包括线状,环状,网状等各种同构 / 异构节点,降低了系统处理的复杂性。在此之前,也有一些研究者以网络化的形式建模智能体之间的关系从而提升算法扩展性。但这种对于系统的分解具有较强的假设,不一定符合真实世界系统的特性。因此团队进一步提出了一种更通用的网络化系统模型用来刻画解耦后多智能体系统的动力学和真实系统动力学之间的关系,其优势在于它能够处理更广泛的合作多智能体任务。该概念弥合了标准网络系统和一般多代理系统之间的差距,为去中心化多智能体系统的研究提供了必要的理论框架和分析工具。
进一步,基于这种更一般化的网络系统,研究团队将单智能体学习中的模型学习理论扩展到多智能体系统中,使智能体能够独立学习局部状态转移、邻域信息价值和去中心化策略,将复杂的大规模决策难题转化为更容易求解的优化问题。这样,大型人工智能系统即使在样本数据和信息交互受限的情况下,也能实现令人满意的决策性能。早在上世纪 90 年代,强化学习教父 Richard Sutton 就提出了基于模型的方法来学习系统内在的动态特性来辅助策略学习,提升样本效率。在这项工作中,研究团队将本地化模型学习与去中心化策略优化相耦合,提出了一个基于模型的去中心化策略优化方法。该方法是高效且可扩展的,在较小的本地信息大小(当单个智能体与其他智能体之间的信息交互受到限制)下就能近似单调的提升智能体策略。具体而言,智能体能够使用经过充分训练得到的本地化模型来预测未来状态,并使用本地通信来传递该预测。
图 2,网络系统结构关系及多智能体模型学习过程
为了缓解模型预测的误差问题,研究团队采用了分支推出策略,用许多短时间线推出替换了少数长时间线推出,以减少模型学习和预测中的复合误差,促进了策略学习过程中的近似单调提升能力:
研究团队从理论上进一步证明了系统解耦后所产生的扩展值函数和策略梯度是接近真实梯度的近似值,这在去中心化模型学习和单调策略提升之间建立了重要的理论桥梁。
多项测试结果表明,该方法能够扩展到具有数百个智能体的大规模电网和交通等网络化系统中,在较低的通信成本下实现较高的决策性能。
图 3,研究方法在智能交通控制场景中的效果
使用了该方法控制的信号灯能够仅通过接收相邻路口的车流信息调控复杂的交通流。这是因为在网络化结构的设计下,整体交通状况已经通过城市路网间接地传递并汇总到相邻路口,通过分析这些相邻路口的观测信息,就能推断和预测整个城市的车流变化,从而做出最优决策。在智能电网上的效果也验证了方法的可扩展性,能够在具有上百个节点的电力网络中实现较低的电能损耗。
图 4,研究方法在智能电网控制场景中的效果
研究团队负责人杨耀东表示:「未来我们将继续深入推进多智能体学习理论与方法的研究,并赋能具身智能和世界模型等前沿人工智能领域,显著提升更广泛的智能系统在协作、预测和决策方面的能力,使其在复杂动态环境中更加灵活高效的执行任务。同时,我们还将推动这些研究成果在智能交通、智慧电网等领域的应用,促进科技成果的快速转化,为社会创造更大价值。」
#Claude Enterprise(Claude 企业版)
原生集成GitHub,让AI成为协作者,Claude企业版馋哭个人开发者
聊天机器人的 game changer?
刚刚,只有 Claude 聊天机器人一款产品的 Anthropic 更新了其产品线,推出了 Claude Enterprise(Claude 企业版)。虽然严格来说,企业版依然是 Claude 聊天机器人,但它却具有一些明显的优势,其中最大的两个亮点是原生集成 GitHub 以及长达 500K 的上下文长度。
原生集成 GitHub 是企业版的一大核心亮点,可让用户将 GitHub 代码库同步到 Claude,从而可以在 Claude 的帮助下测试代码、调试以及培训新人。Anthropic 表示 GitHub 是 Claude 首个原生整合的服务,但目前只有参与 beta 测试的早期企业版用户可用。今年晚些时候才会向更多企业版用户开放。
DAIR.AI 创始人 Elvis Saravia 表示,这个功能是 game changer。他说:「GitHub 集成对上下文整合来说意义重大,但更激动人心的是将其整合进 Artifacts,利用 AI 实现更快的开发周期。这就是集成该有的样子。Anthropic 明白这一点。」但他也遗憾地说,目前只有企业版有这个功能,他们应该快些向所有人开发。
他还表示:「我多年来在 GitHub 上投入的一切将开始带来回报。我几年前就在设想这样的集成,但没想到它会来得如此之快。」
畅想一下,该功能如果与 Cursor 整合,那会带来怎样的可能性?用户完全可以基于 GitHub 上大量开放软件库生成新代码,甚至帮助很多早已不再更新的开源软件生成新版本、加入新功能……
有不嫌事大的用户表示 Claude 将是 OpenAI 的掘墓人并 @ 了它。
甚至已经有用户打算使用该功能开发自己的 FPS 游戏了:
这项功能让不少 Pro 版用户眼红,纷纷表示也想要。
另外,Claude 企业版的上下文长度增至 500K,并且支持上传相关文档。Anthropic 表示,这个上下文长度相当于 100 组 30 分钟长度的销售对话转录文本、10 万行代码或 15 份完整的财务报道。其还表示,通过将 Projects 和 Artifacts 整合进上下文窗口,Claude 可以成为一个端到端的解决方案,让团队可以将新生的想法变成高质量的成果。
顺带一提,Artifacts 是指用户可让 Claude 生成文本文档或代码并在一个专门窗口打开。也就是说,这相当于一个工作窗口。这个功能是在今年 6 月 Claude 3.5 Sonnet 发布时推出的,让用户可以实时地查阅和编辑 Claude 输出的结果并基于其进行构建。比如,这个功能可让用户创建营销日历、销售数据流、制作业务仪表盘、生成特定功能的代码、编写法律文件、总结复杂合同等。该功能于前些天已向所有用户开放。
比如下图给出了一个示例,用户只需上传用户参与度数据,剩下的操作就可以交给 Claude 完成,比如绘制散点图和执行统计分析。
最后,Claude 企业版也有更高的可使用量以及企业级的安全特性,比如 SSO、权限控制、管理工具等。不用说,企业版 Claude 肯定比常规版好一些。此外,Anthropic 还承诺保护用户数据:「我们不会使用您的对话和内容训练 Claude。」
据报道,目前 GitLab、Midjourney 和 Menlo Ventures 等多家公司已经是 Claude 企业版的早期客户,一直都在为 Claude 企业版提供 beta 测试。比如 GitLab 已经在使用这款产品来进行内容创作以及更自动化地响应请求。
Anthropic 一位产品经理 Scott White 表示:「未来这些模型将更像是虚拟合作者,而不仅仅是虚拟助手。」
至于价格,Anthropic 并未明确说明,只是表示可以谈 —— 客户可以根据自身需求(包括用户和查询量、特定的功能需求等)购买使用量。
据 CNBC 报道,自 5 月份 Instagram 的联合创始人和前 CEO Mike Krieger 以及 OpenAI 前安全技术负责人 Jan Leike 加入 Anthropic 以来,该公司的发展迅速。而据彭博社预计,生成式 AI 市场收入将在 2032 年前达到 1.3 万亿美元。在 OpenAI、Meta、微软和谷歌等企业竞相争夺这块巨大市场的当下,我们有望看到更多企业级 AI 服务诞生。
参考链接:
https://www.anthropic.com/enterprise
https://x.com/alexalbert__/status/1831349257497895345
#VideoAgent
比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了
视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。
为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了首个基于记忆和工具使用的视频理解智能体VideoAgent,在视频理解任务上媲美Gemini 1.5 Pro。该论文已被ECCV 2024接收。
论文链接:https://arxiv.org/abs/2403.11481
项目主页:https://videoagent.github.io/
代码链接:https://github.com/YueFan1014/VideoAgent
模型介绍
VideoAgent 的主要思想是将视频表示为结构化的记忆,并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解以及对视频问题的回答。
图 1:VideoAgent 流程图。
VideoAgent 的记忆设计遵循简约原则:作者发现视频中发生的事件以及视频中出现的人和物体能够涵盖最常见的视频问题。因此,作者设计了如图 1 所示的两个记忆组件:1)时间记忆,用于存储每2秒视频片段所发生的事件;2)物体记忆,用于存储视频中出现的人和物体的信息。给定一个视频,VideoAgent会首先构建该视频的时间记忆和物体记忆。在推理阶段,对于该视频的一个问题,VideoAgent会调用一系列工具,从记忆中抽取与问题有关的信息来回答该问题。
,时长01:55
视频 1:VideoAgent 运用思维链和工具回答视频问题。
记忆构建
对于时间记忆,作者使用预训练的视频文本模型 LaViLa [7] 为每 2 秒的视频片段生成描述文本,反映了视频片段中发生的事件。除了描述片段的文本外,时间记忆还存储了每个视频片段的特征,片段特征包括:1)文本特征,通过使用文本编码器 text-embedding-3-large [8] 得到片段的描述文本的嵌入向量;2)视觉特征,通过使用视频语言模型 ViCLIP [9]对视频片段进行视觉编码获得的嵌入向量。这些片段特征在推理阶段时可被 VideoAgent 用于定位关键片段。
物体记忆的核心是跟踪 (tracking) 并且重识别 (re-identification) 视频中的所有物体和人物。作者首先使用 RT-DETR [10] 和 Byte-track [11] 对视频进行物体检测和跟踪。然而,仅仅使用物体跟踪算法无法解决同一物体由于在视频中多次出现而被识别成多个物体的情况。因此,作者提出一种基于 CLIP 特征 [12] 和 DINO-v2 特征 [13] 的物体重识别算法,将物体跟踪结果中相同的物体赋予同一物体 ID。
,时长00:37
视频2:物体重识别效果展示。杯子和牛奶瓶能够在不同位姿下被重识别。
值得一提的是,记忆构建阶段所涉及的所有模型都满足实时性的要求,这使得VideoAgent也能够接受视频流输入,并且实时地构建记忆。最后,物体记忆中存储的内容有:1)包括物体 ID、物体类别和物体所出现的视频片段三个字段的物体数据库;2)物体ID所对应的 CLIP 特征,用以支持在推理阶段的开放词表物体检索。
视频问答
为了回答一个视频问题,大型语言模型(LLM)会将其分解为多个子任务,并调用工具来解决。这些工具围绕统一的记忆库运作,主要包括以下几个工具:
1. 片段描述召回:给定两个时刻,返回两个查询时刻之间所有片段的文本描述。
2. 片段定位:给定一个文本描述,通过将该文本特征与所有片段特征进行比较,检索与之最相关的 5 个片段。
3. 视觉问答:给定一个视频片段和问题,利用 VideoLLaVA [1] 工具,根据视频片段回答该问题。
4. 物体记忆查询:给定一个有关视频中物体的问题,结合 SQL 查询功能和基于 CLIP 特征的开放词表物体检索,从物体记忆中进行复杂的物体信息查询。
最后,LLM 会整合这些工具的使用结果,生成对视频问题的回答。
图 2 展示了 VideoAgent 的一个推理示例。VideoAgent 首先通过片段定位得到了视频中小男孩与成年人同时出现的 5 个时刻;接着在其中两个时刻上调用视觉问答工具,得到了小男孩与成年人之间的关系,并最终准确回答出了视频中的成年人是小男孩的监护者。
图 2:VideoAgent 回答视频问题的示例。
在关于视频中有几艘船的问题上,端到端的多模态大语言模型由于其视觉特征的缺陷,无法准确回答出视频中船的数量。但 VideoAgent 能借助视觉基础模型的能力以及物体重识别算法得到精确的物体细节并存放到物体记忆中,因此能够准确回答出视频中有 6 艘船。
图 3:VideoAgent 与多模态大语言模型的对比。
实验分析
作者在 EgoSchema [14], WorldQA [15], NExT-QA [16] 三个长视频理解数据集上测试了 VideoAgent 的性能。实验表明 VideoAgent 能够取得比目前开源的多模态大语言模型更好的表现,并且能够与目前最好的闭源模型相媲美。
在 EgoSchema 长视频多选题数据集上(见表1),VideoAgent 的 60.2% 的准确率相比基准的多模态大语言模型高出了近 30 个百分点,接近 Gemini 1.5 Pro 的 63.2% 的准确率。在 WorldQA 数据集上(见表2),VideoAgent 在选择题和开放问题上都取得了不错的性能,这归功于 VideoAgent 能够结合大语言模型中的常识知识、推理能力以及视频记忆共同实现对于长视频的理解。
表1:在EgoSchema数据集上的实验结果。
表2: 在WorldQA数据集上的实验结果。
在 NExT-QA 数据集上(见表3),VideoAgent 在时序、因果、描述三类问题上相比基线模型都有显著提升,其在因果类问题上的提升最大。
表3: 在NExT-QA上的实验结果。
在 NExT-QA 上,作者对于 VideoAgent 中的 4 种不同工具进行了消融实验(见表4)。实验表明片段描述召回对于 VideoAgent 理解视频是十分必要的。物体记忆对于 VideoAgent 在时序、因果、描述三类问题的回答准确率都有提升。片段定位和视觉问答这两个工具对于 VideoAgent 正确回答问题的贡献最大。
表4: 在NExT-QA上对不同工具的消融实验。
总结
本文提出的 VideoAgent 是一种多模态智能体,通过一种新颖的记忆机制结合了多个基础模型,用于视频理解。与端到端的多模态大语言模型(LLM)和其他工具使用智能体相比,VideoAgent 采用了极简的工具使用流程,不需要昂贵的训练,同时在 EgoSchema、WorldQA 和 NExT-QA 等具有挑战性的长视频理解基准上,产生了相当或更好的表现。未来的研究方向可能包括在具身智能、制造业和增强现实领域的实际应用。