我自己的原文哦~ https://blog.51cto.com/whaosoft/11870499
#PanoSent
情感分析的终极形态:全景式细粒度多模态对话情感分析基准
罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。
情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。
新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在这个方向上迈出了重要的一步,探索了情感分析的终极形态,提出了 PanoSent —— 一个全景式细粒度多模态对话情感分析基准。PanoSent 覆盖了全面的细粒度、多模态、丰富场景和认知导向的情感分析任务,将为情感计算方向开辟新的篇章,并引领未来的研究方向。该工作被 ACM MM 2024 录用为 Oral paper。
论文地址:https://www.arxiv.org/abs/2408.09481
项目地址:https://panosent.github.io/
研究背景
在人工智能领域,让机器理解人类情感是迈向真正智能化的重要一步。情感分析是自然语言处理领域的一个关键研究课题。通过多年的研究,情感分析在各个维度和方面取得了显著的发展。该领域已从传统的粗粒度分析(如文档和句子级别分析)发展到细粒度分析(例如 ABSA),融合了广泛的情感元素,并发展出提取目标、方面、观点和情感等不同的情感元组。此外,情感分析的范围已从纯文本内容扩展到包括图像和视频的多模态内容。
因为在现实世界场景中,用户通常通过多种多样的多媒体更准确地传达他们的观点和情绪,提供超越文本的附加信息,如微表情、语音语调和其他线索。此外,研究已超越单一文本场景,考虑更复杂的对话情境,在这些情境中,个体在社交媒体平台(例如 Twitter、Facebook、微博、知乎、小红书、抖音等)上频繁进行关于服务、产品、体育等的多轮、多方讨论。
尽管情感分析领域已取得显著进展,目前的研究定义仍然不够全面,无法提供一个完整且详细的情感画面,这主要是由于以下几个问题。
首先,缺乏一个综合定义,将细粒度分析、多模态和对话场景结合起来。在现实生活应用中,如社交媒体和论坛上,这些方面往往需要同时考虑。然而,现有研究要么在多模态情感分析定义中缺乏详细分析,要么在对话 ABSA 中缺失多模态建模。最完整的基于文本的 ABSA 定义仍然无法完全涵盖或细致划分情感元素的粒度。
其次,当前的情感分析定义只考虑识别固定的静态情感极性,忽略了情感随时间变化或因各种因素变化的动态性。例如,社交媒体对话中的用户最初的观点,可能会在接触到其他发言者的新信息或不同观点后发生变化。
第三,也是最关键的,现有工作没有彻底分析或识别情感背后的因果原因和意图。人类情感的激发和变化有特定的触发因素,未能从认知角度理解情感背后的因果逻辑意味着尚未根本实现人类级别的情感智能。总的来说,提供一个更全面的情感分析定义可能会显著增强这项任务的实用价值,例如,开发更智能的语音助手、更好的临床诊断和治疗辅助以及更具人性化的客户服务系统。
为填补这些空白,本文提出了一种全新的全景式细粒度多模态对话情感分析方法,旨在提供一个更全面的 ABSA 定义,包括全景情感六元组提取(子任务一)和情感翻转分析(子任务二)。如图 1 所示,本文关注的是涵盖日常生活中最常见的四种情感表达模态的对话场景。
一方面,作者将当前的 ABSA 四元组提取定义扩展到六元组提取,包括持有者、目标、方面、观点、情感和理由,全面覆盖更细粒度的情感元素,提供情感的全景视图。
另一方面,作者进一步定义了一个子任务,监控同一持有者在对话中针对同一目标和方面的情感动态变化,并识别导致情感翻转的触发因素。在六元组提取和情感变化识别中,作者强调辨别潜在的因果逻辑与触发因素,力求不仅掌握方法,还要理解背后的原因,并从认知角度进行分析。
为了对这一新任务进行基准测试,作者构建了一个大规模高质量的数据集,PanoSent。PanoSent 涵盖了 100 多个常见的领域和场景,基于多轮、多方的对话情境,情感元素在六元组中可能跨越多个句子。
为了更真实地模拟人类的情感表达习惯,数据集中的元素可以来自文本和非文本(音频或视觉)模态。情感可能以隐式的方式表达,数据集涵盖了隐式和显式的情感元素。
为确保基准的通用性,数据集包括三种主流语言:英语、中文和西班牙语。作者从现实世界来源收集数据,进行了精心的手动标注。为了扩大数据集的规模,作者进一步利用 OpenAI GPT-4 自动生成数据,并结合多模态检索技术进行扩展。严格的人工检查和交叉验证确保了高质量标准。PanoSent 总共覆盖了 10,000 个对话。表 1 对 PanoSent 与现有的一些多模态细粒度情感分析数据集进行了对比分析。
与现有的 ABSA 任务相比,本文提出的新任务提出了更大的挑战,例如需要理解复杂的对话情境并灵活地从各种模态中提取特征,尤其是在认知层面识别因果原因。考虑到多模态大型语言模型(MLLMs)在跨多模态的强大语义理解方面最近取得的巨大成功,作者构建了一个主干 MLLM 系统,Sentica,用于编码和理解多模态对话内容。受人类情感分析过程的启发,作者进一步开发了一个情感链推理框架(CoS),用于高效地解决任务,该框架基于思维链的思想,将任务分解为从简单到复杂的四个渐进推理步骤。该系统能够更有效地提取情感六元组的元素,并逐步识别情感翻转,同时引导出相应的理由和触发因素。基于释义的验证(PpV)机制增强了 CoS 推理过程的稳固性。
全景式细粒度多模态对话情感分析基准:PanoSent
任务建模
PanoSent 包括两个关键任务,具体可参见图 1 的可视化展示。
- 全景式情感六元组抽取:从多轮、多方、多模态对话中识别情感持有者、目标、方面、观点、情感及其原因。
- 情感翻转分析:检测对话中情感的动态变化及其背后的因果关系。
PanoSent 基准数据集
研究团队构建了一个包含 10,000 个对话的大规模高质量数据集 PanoSent,数据来自现实世界的多样化来源,情感六元组元素经过手动注释,并借助 GPT-4 和多模态检索进行扩展。通过严格的人工检查和交叉验证,确保数据集的高质量。PanoSent 数据集首次引入了隐式情感元素和情感背后的认知原因,覆盖最全面的细粒度情感元素,适用于多模态、多语言和多场景的应用。
多模态情感分析大模型:Sentica
多模态大语言模型骨干
当前,大型语言模型(LLM)在理解语言语义方面表现卓越,多模态大语言模型(MLLM)则展示了对多模态数据的强大理解能力。基于此,研究团队为 PanoSent 设计了一款新的 MLLM——Sentica。该模型使用 Flan-T5 (XXL) 作为语义理解和决策的核心 LLM。对于非文本输入,采用 ImageBind 统一编码多模态信息,并将编码结果投影到 LLM 的嵌入空间。
链式情感推理框架
针对全景式情感六元组抽取和情感翻转分析任务,团队提出了受思想链(CoT)推理启发的链式情感推理框架(CoS)。该框架通过四个渐进的推理步骤,从简单到复杂,逐步解决每个任务,并为后续步骤积累关键线索和见解。步骤包括 “目标 – 方面” 识别、“持有者 - 观点” 检测、“情感 - 理由” 挖掘及 “情感翻转触发器” 分类。
步骤 1:“目标 - 方面” 识别
在给定对话文本及其多模态信号下,通过特定指令,要求模型识别对话中提到的所有可能的目标及其对应的方面,形成目标 - 方面对。
步骤 2:“持有者 - 观点” 检测
在识别出 “目标 - 方面” 对之后,下一步是检测相关的持有者及其具体观点。输出应为包含持有者、目标、方面和观点的四元组,为后续的情感分析奠定基础。
步骤 3:“情感 - 理由” 挖掘
基于已识别的四元组,分析与每个观点相关的情感并识别其背后的理由。最终输出为六元组,全面展现情感表达及其背后的因果逻辑。
步骤 4:“情感翻转触发器” 分类
在识别出所有六元组后,最后一步是检测情感的翻转,即从初始情感到翻转情感的变化,对导致情感翻转的触发因素进行分类。输出应为包含上述情感元素的六元组或 “None” (如果没有情感翻转)
基于复述的验证
为避免链式推理中可能产生的错误累积,研究团队设计了基于复述的验证机制(PpV)。在每个推理步骤中,通过将结构化的 k 元组转化为自然语言表达,并结合上下文检查其是否具有蕴涵或矛盾关系,从而确保每个步骤的准确性。这一机制不仅增强了情感分析的稳健性,还有效减轻了 LLM 固有幻觉的影响。
实验和分析
主实验结果
团队通过实验验证了 Sentica 在两个子任务中的表现。在六元组抽取任务中,Sentica 显著优于其他方法,尤其是在结合 CoS 和 PpV 机制后,表现达到最佳。在情感翻转分析中,Sentica 同样表现出色,特别是在多语言环境下,准确性显著提高。
验证构建合成数据的必要性
实验结果表明,尽管合成数据量较大,模型在真实数据上的训练效果更佳。这是因为真实数据的信息分布更为自然,帮助模型学习到更具代表性的特征。然而,合成数据作为补充则显著提升了模型的最终性能,进一步证明了合成数据在优化模型表现中的关键作用。因此,构建合成数据不仅是必要的,而且有助于提升情感分析的整体效果。
验证多模态信息的重要性
研究团队深入分析了多模态信息在情感分析中的作用,发现其不仅是对文本信息的补充,还在六元组元素的判断中起到关键作用。实验结果显示,移除任何模态信号都会导致性能下降,尤其是图像信息的缺失对性能的影响最大。这表明,多模态信息在任务中不可或缺,对提高模型的识别精度至关重要。
验证显性与隐性元素的识别性能
通过对显性与隐性情感元素的识别性能进行对比分析,结果显示,隐性元素的识别难度明显高于显性元素。这反映了识别隐性元素对上下文语义理解的更高要求,进一步说明在情感分析中,应特别关注对隐性元素的识别和处理。
验证 PpV 机制的合理性
作者验证了基于复述的验证机制(PpV)的有效性。实验表明,通过 LLM 复述和直接验证,PpV 机制能够确保结构化数据与对话上下文之间的语义一致性,其性能优于仅依赖直接验证或不进行验证的方式。此外,使用固定模板复述结构化元组比依赖 LLM 复述更为可靠,这进一步增强了情感分析的稳健性。
案例研究
作者通过多个实例展示了所提出模型在与其他模型对比中的优越性能。如图 12-14 所示,该模型展现了对复杂对话上下文的更深入理解,能够精准捕捉对话中的微妙细节,并推断出隐含意图。得益于卓越的多模态信息处理能力,该模型能够更准确地解释各种模态信号。此外,该模型在识别对话中隐含元素方面表现突出。这些优势使模型能够更全面地提取六元组信息,并更准确地分析对话中的情感翻转。
结论与展望
在这项研究中,团队引入了全新的全景式细粒度多模态对话情感分析基准 PanoSent,提出了两项新任务:全景情感六元组抽取和情感翻转分析。基于 MLLM 的链式情感推理方法在 PanoSent 数据集上展示了卓越的基准性能,为情感分析领域开辟了新的篇章。
未来的研究可以朝以下几个方向展开:
- 多模态信息的进一步探索:开发更强大的多模态特征提取和融合方法,深入研究不同模态在情感识别中的具体影响。
- 隐性情感元素的识别:探索更精准的技术来识别隐性情感元素,这是当前情感分析中较为棘手的挑战。
- 情感认知与推理机制:研究情感元素之间的交互及其背后的因果机制,以开发更为稳健的情感推理解决方案。
- 对话上下文的建模:增强模型对对话上下文的理解能力,特别是在处理对话结构和说话者共指解析方面。
- 跨语言与跨领域迁移学习:研究多模态场景下的迁移学习方法,开发能适应不同语言和领域的通用情感分析模型。
#Llama系列下载量近3.5亿
全球3.5亿下载量破纪录! Llama家族暴涨10倍,开源帝国掀AI革命
诞生一年半,Llama家族早已稳坐开源界头把交椅。最新报告称,Llama全球下载量近3.5亿,是去年同期的10倍。而模型开源让每个人最深体会是,token价格一降再降。
Llama一举成为世界开源的领头羊。
截至目前,Llama模型在开源平台HuggingFace下载量近3.5亿。
Groq的创始人表示,这也太疯狂了,想想Linux花了多长时间才达到这个数字?
官博介绍,这一数字,是去年同期的10倍。而且,仅在上个月,模型的下载量超2000万次。
2023年2月,Llama 1首次亮相,经过多次迭代,到现在已经过去了整整18个月。
而在这仅有的一年半里,Llama已经从一个最先进的单体基础模型,发展成为,一个面向开发者的强大生态系统。
LeCun还不忘给自家模型宣传一波,越来越多的大公司、小公司、初创公司、政府和非营利组织,正基于此开发新的产品和服务。
还有高校机构、研究人员和工程师每天都在改进Llama,并提出新的用例。
另外,值得关注的一点是,自今年5月Llama 3.1发布之后,云服务商对模型API token调用需求,翻了一番还要多。
一些Meta最大的云服务提供商,从2024年1月到7月,Llama的每月token量增长了10倍。
从微软云、英伟达、谷歌云等科技巨头,到Groq、Databricks等初创公司,全都支持Llama模型的使用。
老黄称,「Llama深深地影响着最先进AI的进步」。
可见,Llama正引领着开源之光。
Llama开源,拉低token价格战
GPT-4级别模型开源,最先带来的好处是,token的价格不断下降。
AI大牛吴恩达在DeepLearning的博客中,算了一笔账:
近期,OpenAI官宣降价后,GPT-4o的token成本,现在是每百万token4美元。(假设是80%输入和20%输入token混合率)
还记得,2023年3月首发GPT-4时,每百万token的成本是36美元。
博客地址:https://www.deeplearning.ai/the-batch/issue-264/
17个月的时间,价格相当于每年下降了79%(4/36 = (1 - p)^{17/12})。
如你所见,token价格正迅速下降!
而推动token价格不断下降的一个因素,便是开源模型(如Llama 3.1)的发布。
这是因为,API提供商(如Anyscale、Fireworks、Together AI初创公司,以及一些大型云服务商)并不需要担心赚回开发模型所需的成本,因此他们可以直接在价格、速度等其他因素上,开启竞争。
此外,一些芯片公司Groq(快速生成token领先者)、Samba Nova(能以114 token/s速度运行Llama 3.1 405B)、Cerebras(以1800 token/s速率运行Llama 3.1 8B),以及英伟达、AMD、英特尔、高通等半导体巨头,在硬件上的创新,近一步拉低了模型价格。
Groq发文介绍了,如今支持Llama模型的生态。
「到目前为止,Groq已经使用Llama模型套件和自家LPU Inference,每天向40多万开发人员提供50亿个免费token」。
在构建用程序时,吴恩达发现,根据未来技术发展方向,进行设计是非常有用的,而非局限于当前水平。
基于多家软硬件公司的技术路线(改进半导体、更小的模型、推理架构中的算法创新),可以预见的是,token价格还将持续下降。
这意味着,即便你构建的智能体工作流看起来成本太高,而随着token价格不断下降,或许在某个时间,这套方案在未来也变得经济可行。
假设你创建了一个APP帮助人类,可每秒连续输出100个token。那如果百万token 4美元,每小时只花费1.44美元。
这远远低于美国,以及许多其他国家最低工资标准。
Meta挑战ChatGPT赢得数百万用户
小扎希望,到今年年底,让Meta AI成为全球使用量最多的AI助手,超越OpenAI的ChatGPT。
目前,这一切正朝着他的目标,取得了进展。
据内部2位员工透露,8月初,Meta AI(2023年9月发布)在发布不到一年时间里,收揽了至少4亿月活跃用户和4000万日活跃用户。
这些数字从侧面反映了,超30亿用户的Meta,每天至少使用Meta旗下的一款应用中的AI助手。
此外还包括,通过Meta AI专属网站,以及Ray-Ban智能眼镜,也收获了不少用户。
庞大的用户群,成为大型科技公司优势,希望从ChatGPT中夺取一部分市场份额和关注度。
其实,谷歌也向数十亿用户推广了对话式AI——Gemini,但力度却不如Meta。
但一些使用Meta应用程序的人,在Facebook、Reddit、X上,抱怨Meta过于激进地推广AI助手,比如在其APP的键盘上添加搜索按钮。
有的人还出了一个关闭Meta AI对话的教程。
出于对用户参与度的担忧,Meta员工可能会不定期讨论的一个问题是,是否有些用户无意间使用了Meta AI。
8月初使用数据显示,大约10%的月活跃用户,每天使用助手来回答问题、生成图像和执行其他任务。
而这一比例远低于Meta的其他应用程序。
Meta此前2月报告称,80%的月活跃用户每天至少使用一款自家的应用。
这些数字表明,Meta AI已经是ChatGPT强有力的竞争者之一。
2022年11月,ChatGPT首次推出。截至目前,每周有超2亿人使用。鉴于最近的使用数据,Meta AI可能相距不远。
与Meta AI不同,ChatGPT也是一项盈利的业务模型。
数百万用户每月需要支付20美元,成为ChatGPT Plus用户,才能用上最先进模型撰写、编程、答问的能力。
数据显示,ChatGPT订阅收入,每年大约高达20亿美元。
Meta已在今年投入高达400亿美金数据中心和其他基础设施。
而Meta AI被视为,未来公司获得这些巨额投资回报的关键部分,主要用于开发这一产品的背后大模型Llama。
虽有报道曝出,Meta正推出一个付费版的高级人工智能助手。
去年9月,Meta刚刚推出AI助手时,人们最初只能通过Instagram、WhatsApp或Messenger上的直接消息与Meta AI聊天。
今年,Meta开始在各种应用中, 让其变得更加显眼、容易访问。
4月,他们将Meta AI添加到其应用程序的搜索栏和信息流中,并为其推出了独立网站meta.ai。
同月,Meta还推出了一个新版本的AI助手,该版本能够识别和解析图像,并在其Ray-Ban智能眼镜中广泛应用。
目前,该助手在Meta的应用程序中可用的语言有8种,并在22个国家提供,同时在美国和加拿大的智能眼镜中提供英语版本。
开源AI如火如荼
开源AI技术正在迅速发展,推动着生成式AI的重大创新。通过GitHub和Hugging Face等可访问的研究和平台,社区已经启动了取得突破性成果的项目。
生态系统:稳步增长,走出泡沫化的底谷期(Trough of Disillusionment)
自2023年第一季度的温和增长以来,开发者的兴趣已经增长并稳定下来,进入了「稳步爬升的光明期」(Slope of Enlightenment)——价值驱动的创新在此增长。
2024年,开源AI中严肃的开发者参与(即GitHub贡献者)仍在继续增加。
市场分析:开发工具仍是热门,训练和监督势头正旺
- 开源AI产品初创企业数量显著增加
2024年,参与开源AI的参与者数量激增,新的参与者如Neum AI和Patronus AI进入了这一领域,而像Vian AI这样的老牌参与者也为其用户提供了开源工具包。
- 开发工具仍然热门;培训和监控工具竞争加剧
大多数初创企业仍专注于生成式AI的开发工具,这对于构建、部署和管理应用程序至关重要。
然而,围绕模型训练和监督用例的初创企业活动有所增加,这表明可能会向在小众数据上微调模型和增强AI治理的方向转变。
在开源模型领域,领先者开始显现,开发的新模型较少,更多的重点放在来自Mistral和Meta等公司的改进和更高效的版本上。
- 开源开发正在缩小与闭源解决方案的差距
开源使得研究更具成本效益和可访问性,促进了来自多元创作者的创新,并且法律限制较少。据统计,有41%的企业用户倾向于选择开源来满足生成式AI的需求。
融资环境:融资步伐加快,规模更大、后期交易增多
过去两年,开源AI领域已完成60多笔交易,总融资额超过130亿美元。这些交易中有超过45%属于A轮及以上的融资,表明对增长阶段投资的强烈关注。
- Deci AI被英伟达以3亿美元收购
- Scale AI完成了10亿美元的F轮融资
- Mistral AI完成了6.4亿美元的B轮融资
- Together AI完成了1.06亿美元的A轮融资
在开源AI领域中,模型训练和开发工具是获得资金最多的细分领域(不包括Mistral和Databricks),占总融资的60%。
其中,英伟达参与了8笔交易(包括Scale AI、Mistral AI、Together AI)。
基础模型:性能差距已缩小
如今,开源和闭源模型之间的基准差距现在比以往任何时候都要小——Meta Llama和Mistral在MMLU上的表现几乎与GPT-4o相同。
其他开源模型,如Qwen和Yi,也在性能上快速赶上。
为了解决现有评估(如Elo和MMLU)的局限性,Hugging Face于2024年6月正式推出了专注于复杂任务的开源LLM排行榜——Open-LLM-Leaderboard。
在过去的6个月中,随着新竞争者的出现,开源AI的格局发生了显著变化。
经过大量数据预训练的Qwen,于2024年6月在Huggingface Traction上获得了最高的下载量。
Github:Huggingface、MindsDB和Roboflow非常火爆
GitHub的stars是项目在GitHub上受欢迎程度的直接指标。
AutoGPT和ModularML的Mojo在2023年引领了GitHub热度——自那时以来,多个仓库已经获得了显著的进展。
LeRobot提供基于PyTorch的真实世界机器人模型、数据集和工具,旨在使机器人技术更易于访问。它具有最先进的模仿学习和强化学习方法,提供预训练模型、人类收集的数据集和模拟环境。
由英伟达支持的MindsDB是一个使用企业数据构建AI模型的平台。MindsDB简化了数据源和AI/ML工具之间的连接,自动化工作流程以创建定制的AI系统。
参考资料:
https://x.com/ylecun/status/1829233754876834298
https://synaptic.com/resources/open-source-ai-2024/
开源启动!18个月Llama系列下载量近3.5亿,黄仁勋:快到难以置信
今天一大早,Meta 便秀了一把「Llama 系列模型在开源领域取得的成绩」,包括如下:
HuggingFace 下载量接近 3.5 亿次,较 2023 年同期增长了 10 倍;
过去一个月下载量达到了 2000 万次,使得 Llama 成为领先的开源模型系列;
云服务供应商对 Llama 需求巨大,自 5 月以来,Meta 最大云供应商的 token 使用量增加了一倍多;
Llama 模型正被整个行业采用,包括 Accenture、ATT、DoorDash、GoldmanSachs 等。
距离 Llama 3.1 的发布(7 月 24 日)仅仅过去了一个多月,Meta 已经将上下文扩展到了 128k,增加了对 8 种语言的支持,并且 405B 参数量的 Llama 3.1 成为全球最强的开源大模型。
可以说,Llama 的成果要归功于开源的力量。目前围绕 Llama 已经形成了一个充满活力和多样性的 AI 生态系统,开发者拥有了比以往更多的选择和能力,初创公司和各种规模的企业都在使用 Llama 来构建 On-premises(指公司的本地数据中心内运行的软件、服务或系统。)。
可以说,开源已经成为 Meta 的 DNA。此前,Meta 创始人扎克伯克公开写信声明开源的好处:这将促进更有活力的 AI 开发生态,对普通用户、Meta 以及其他公司都有利。
7 月 24 日,在 Llama 3.1 发布的同时,扎克伯格也发了一封标题为「拥抱开源 AI:通往未来的必由之路」的公开信。
历时 18 个月,Llama 成长为开源模型标杆
自 2023 年 2 月首次亮相以来,Llama 只用了 18 个月便从单一的先进基础模型发展成为面向开发者的强大系统。到如今,借助 Llama 3.1,Meta 为开发者提供了一个完整的参照系统,使他们可以轻松创建自己的智能体,并通过安全工具帮助他们负责任地创建。
除了下载量的持续增长,Meta 还与 AWS、微软 Azure、Databricks、戴尔、谷歌云、Groq、NVIDIA、IBM watsonx、Scale AI、Snowflake 等公司合作,帮助开发者发挥模型潜力。
发布 Llama 3.1 后,Meta 的主要云服务供应商的 Llama 使用量显著增长。具体来说,从 2024 年 5 月到 7 月,按 token 计算的使用量翻了一番多。
从今年 1 月到 7 月,Meta 的主要云服务供应商每月对 Llama 使用量增长了 10 倍。参数量最大的 Llama 3.1 405B 也很受欢迎,据某云服务供应商 8 月的数据显示,用户数最高的是 Llama 3.1 405B。
Llama 3.1 发布后,拥有访问 Llama 权限的合作伙伴增长了 5 倍,Wipro、Cerebras 和 Lambda 等知名企业也将成为其中的一员。
开发者社区对 Llama 的偏好也日益增长。据专注于 AI 基准测试的独立网站 Artificial Analysis 的调查,Llama 是开发者们的首选排行榜上的第二名。
在 Hugging Face 平台上,Llama 已有超过 60,000 个模型变体,活跃的开发者社区正在根据自己的需求,对 Llama 进行细致的定制和优化,包括 AT&T、DoorDash、高盛、Niantic、野村证券、Shopify、Spotify、Zoom 等在内的行业巨头,以及 Infosys 和 KPMG 等专业服务领域的领军企业,都已经将 Llama 集成到内部系统中。
在企业服务中,Llama 系列已经有一些成功的用例。基于 Llama 3.1 知名咨询公司埃森哲构建了一个用于 ESG(环境、社会和治理)报告的定制大模型。他们期望,用上了 AI 之后,写报告的生产力能提高 70%,质量提高 20% 至 30%。
通过微调 Llama 模型,美国电信巨头 AT&T 在客户服务搜索响应上取得了接近 33% 的大幅提升。这一改进不仅降低了成本,还提升了业务效率。
随着 Llama 生态系统的不断壮大,Meta AI 的功能和接入点也在同步扩展。现在,用户可以通过 Instagram、WhatsApp、Messenger 和 Facebook 等应用直接体验 Meta 的智能助手。
Meta 也没忘记心心念念的「元宇宙」,Meta 还在开发头显 Quest 系列和智能眼镜 Ray-Ban Meta,正在朝着一个目标迈进:届时,一个全天候待命、知冷知热、提供情绪价值的 AI 助手将以可穿戴的形式主动融入你的日常生活,为你提供帮助。
与此同时,OpenAI 也亮出了自己的数据,每周有超过 2 亿人在使用 ChatGPT,相比去年 11 月的报告,ChatGPT 每周的活跃用户数约为 1 亿,仅过半年,这个数字就涨了一倍。
在 ToB 赛道上,OpenAI 也不遑多让,92% 的财富 500 强公司都在使用 OpenAI 的产品,更便宜、更智能的 GPT-4o Mini 推出后,API 的使用量翻了一番。
评论两极分化:真·假开源
看到 Meta 的喜报,Grok 的 CEO Jonathan Ross 发来了贺电:一个大模型的下载量达到 3.5 亿次,太疯狂了!Linux 达到这个数字用了多久?
他还表示:开源赢了!到目前为止,Groq 已经向超过 40 万开发者每天提供 50 亿 Llama 系列模型的免费 token。但这仍然供不应求,Ross 称,即使 Groq 将部署的容量增加 10 倍,这些资源也会在 36 小时内用完。
Llama 系列以如此快的速度,达成了 3.5 亿次下载的成就,老黄也赶紧点了赞:「在过去的一个月里,我们见证了 Llama 3.1 以如此之快速度被应用部署,真是令人难以置信。」
但是在网友和合作伙伴的一片叫好声中,也有对 Meta 只开放代码,未开放模型权重的质疑声。
虽然 Meta 给自己全身贴满了「开源」的标签,但是最近开放源代码促进会(OSI)却明确表示:Llama 系列并不算真开源。
在 OSI 给出的定义下,判断一个 AI 模型真正开源,需要符合「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型。
虽然 Llama 3 模型可以自由部署,但 Meta 限定了 Llama 3 可以生成的内容类型。因此, Llama 3 也不算真正的开源了。
然而 ,Meta 对 OSI 非黑即白的「二元论」提出了反对,他们认为开发大模型的成本很高,过程也很复杂。因此,对于开源的标准,应该有一个从完全开放到部分开放的范围,而不是只有完全开源或完全闭源两种极端状态,并且被 OSI 列入第一批「白名单」的开源模型中,都没有达到 Sota 的水准。
Meta 这么刚,知名杂志《经济学人》对此点评道:Meta 被指控正在「霸凌」开源社区。
在今年的 SIGGRAPH 大会上,扎克伯格曾在和黄仁勋的对谈中提及,Meta 做开源并非纯纯做慈善,而是一种明智的经营策略。在开源计算系统后,Meta 成为了行业标准,供应链主动对齐 Meta 的设计,这种为行业打造整套生态的经验,实际为 Meta 节省了数十亿美元。
同时,Meta 开源的决策也要拜苹果所赐,在以手机为代表的智能移动设备崛起后,苹果的闭源生态太过垄断,以至于扎克伯格放弃了很多想要开发的功能。为此,扎克伯格甚至当场爆粗。
但在 OSI 看来,Meta 现在的做法似乎让他们变成了「另一个苹果」。发出「Meta 正在霸凌开源社区」指控的正是 OSI 的执行董事 Stefano Maffulli:「扎克伯格真的在强迫整个行业跟随他的步伐」。
OSI 计划在今年 10 月正式揭晓对「开源 AI」定义的最终修订版。他们期望通过一个清晰而严格的标准,赋予开发者们信心:他们可以自由地使用、复制和修改像 Llama 这样的开源模型,而不必「受扎克伯格善意的摆布」。
#智谱「超大杯」模型
一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o
在与 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing:清言上线了视频通话功能,首批面向部分用户开放。
中国的大模型,正在世界舞台上站稳脚跟。
近日,数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开,来自中国的研究团队和科技企业纷纷亮相。其中,在 8 月 29 日举办的大语言模型日(Large Language Model Day)上,智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM,成为中国科技力量的鲜明代表 。
与此同时,他还介绍了智谱基础模型的重大升级,即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
此外,他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能,后者具备卓越的图像理解能力和基于时间感知的视频理解能力,上线开放平台后将成为国内首个通用视频理解模型 API。
在视频生成方面,比 CogVideoX 2B 更大的 5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。
这些模型共同构成了智谱自主原创的全栈大模型谱系,推动智谱全面对标国际先进水平,巩固中国在全球大模型领域的领先地位。
第一手实测
通用知识、视觉理解、图像生成体验升级
我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。
先看官方给出的指标。从结果来看,在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。
对于逻辑推理任务,先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看,GLM-4-Plus 很懂小数位比较的逻辑思路。
给 GLM-4-Plus 上上难度,看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路,并给出准确答案。
GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌,说明背后的搜索功能做得也不错。
接下来,我们测试了 GLM-4V-Plus 的图像理解能力。
给出一张有关英伟达的漫画,GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热,指出英伟达是铲子卖家,其他 AI 公司是铲子买家,和漫画寓意相符。
接下来,我们又给了它一张包含多个人物的梗图。结果发现,GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景,还能看出几个人之间的关系以及表情的成因,效果出乎意料。
GLM-4V-Plus 在「实战」中不仅可以理解网页内容,将它们转换为 html 代码,而且能够对复杂的视频内容进行透彻的理解与分析,并做到与人类之间类似的沟通。
我们也让 GLM-4V-Plus 生成了截图的 html 代码。它基本对设计稿进行了分区规划,排版方式用了比较现代的 flex,支持一定的响应式,具有一定的基于当前代码继续补充细节的可行性。
从代码功能来看,它能够正确识别模块的内容大概是什么(比如是 Logo、是 Banner 还是新闻),并且语义化给出 class 命名(如新闻板块命名为.news)。
眼见为实,GLM-4V-Plus 强不强,下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频:
然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。
Q1: 这个穿绿色衣服的球员在整个视频都做了什么?
A1: 在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
Q2: 这个视频的精彩时刻是什么?发生在第几秒?
A2: 这个视频的精彩时刻发生在第 4 秒,当时穿绿色衣服的球员跳起并将球投入篮筐。
可以看到,GLM-4V-Plus 显然准确地 get 到了视频传达的内容,并进行了全面的总结。不仅如此,它还能根据「看到」的某些显著特征(如球员的服装)来展开进一步合理的推理判断;并针对具体时间节点的内容进行概括总结,在某种程度上可以说具备了时间感知能力。
我们测试了当前大火的《黑神话・悟空》片段,GLM-4V-Plus 也能按照时间顺序描述清楚,而且描述语言文学性高,与视频片段高度适配。
一个穿着传统中国盔甲的动画孙悟空,站在多云的天空下,散发出决心和战斗的准备。随着时间的推移,他的装束被详细展示,包括金色的盔甲、红色的流苏和类似羽毛的头饰,背景是雾蒙蒙的。他的表情从严肃的决心变为沉思,暗示着内省。场景转换到一个雾蒙蒙的山区地形,在那里,一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物,预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级,最终在多云的天空下,一场戏剧性的对峙达到高潮。
最后,从 CogView-3-Plus 生成的一系列图像示例中,我们体验到了文生图能力的显著提升。
比如在下面这张图中,我们看到 CogView-3-Plus 可以非常准确地生成单词,这在很多文生图应用中都是高频翻车区。
在下面这张图中,CogView-3-Plus 不仅准确还原了马斯克的面部特征,还创意性地给马加上了类似电路的纹理,非常富有想象力。
CogView-3-Plus 对于古诗词的理解有些出乎意料,不仅画出了所有的元素,还还原了诗词中的意境。
人物的生成则非常逼真,而且细节丰富、氛围感强。
可以说,智谱「超大杯」模型系列的实际体验效果,「兑现了」性能指标上的全面提升。
One More Thing
智谱版「Her」正式上线
除了以上基础模型的进展,智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。
我们知道,在 GPT-4o 出现后,大家都在猜测,下一个 Killer APP 的交互方式会是什么样子。很多人看好语音,但毋庸置疑,语音 + 视频会更加方便,所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」,让大模型不仅会写、会听、会说,还会看。
在国内,智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言,然后打开视频通话窗口,就可以和它视频通话。
这个视频通话跨越了文本、音频和视频模态,并具备实时推理的能力。随着该功能的加入,清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。
从官方 demo 来看,这个功能可以用在陪伴、教学、办公、生活等多种场景。
为了验证效果,在第一时间进行了尝试。
首先,我们尝试了一道小学数学题。在看到题目后,清言似乎自动代入了一个小学老师的角色,语速放慢且富有耐心。而且,它不是直接给出结果,而是用苏格拉底启发式教学法,引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗?
接下来,我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出,它不仅能把新闻概括出来,还能自行扩展新闻背后的信息,可以考虑拿来当工作搭子了。
目前,该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端,就能站内申请内测。智谱表示会持续迭代并逐步放开规模,尽快让全员都可以使用。
此外,智谱还透露,这其实只是一个 beta 版本,清言的视频通话功能近期还会迎来大的版本迭代。看来,智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level,在行业内掀起新一轮竞赛。
密集的迭代背后
智谱有着充足的技术弹药
在众多大模型公司中,智谱是非常有辨识度的一家。这一方面是因为,智谱的模型早早就做到了接近 GPT-4 的水平;另一方面则是因为,没有哪家国产大模型公司像智谱的技术动作这样密集。
比如 2024 开年以来,智谱这家公司就一直「没消停过」。
比如,在模型方面,智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今,GLM-4 再度进化,时间间隔也不过半年多。
在战火纷飞的小模型战场,智谱也没闲着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 还是多模态的,通过加入 Vision Transformer,该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是,这个模型是开源的。
而在产品方面,智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务,这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制,帮助没有编程基础的用户实现大模型的便捷开发。
在清言这款 C 端产品上,智谱也是更新不断,其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。而且,和 OpenAI 迟迟没有上线的 Sora 不同,清影同源的视频生成模型 ——CogVideoX 也是开源的,而且一路从 2B 开源到 5B(未来可能更大),这在国内外开发者群体中都引发了不小的轰动。
今天 HuggingFace 热榜,CogVideoX-5b 排名第三,超过 Llama 了。
据悉,智谱开源模型累计下载量已突破 2000 万次。
可以看到,从基础大模型到小模型,从语言到多模态,从技术到产品,智谱在各个方向全面发展,且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。
在竞争激烈的全球大模型市场中,智谱正通过频繁的技术迭代和开源举措,不断推动行业和生图的发展,赢得了越来越多的关注与认可。
#Runway突然删除HuggingFace库
网友:真跑(Run)路(Way)了
太突然!也没有任何理由的!
Runway 就删除、清空了他们在 HuggingFace 上的所有内容。
在 Hugging Face 主页上,Runway 声明不再维护 HuggingFace。
Runway 之前的很多项目也无法访问了,比如 Stable Diffusion v1.5。
目前,Runway 在 GitHub上的代码库有 40 个。
网友热议
此事在 Reddit、Twitter 上也引起了大家的关注与热议。
帖子链接:https://www.reddit.com/r/StableDiffusion/comments/1f4epto/runway_took_down_15_and_15_inpainting/
有网友调侃称:Runway 真跑路了。
也有网友猜测是不是被收购了。
当然,也有热心网友趁机把魔搭社区的资源贡献给大家:
- 1.5:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-v1-5/files
- 1.5 修复:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-inpainting/files
但截至发文,我们还没能看到任何官方的解释。
#1X消费级人形机器人亮相
终于有了点赛博朋克的样子。
这真不是个穿着皮套的人类吗?
刚刚,OpenAI 押注的机器人创业公司 1X 宣布正式推出一款专为家庭使用而设计的双足人形机器人原型 ——NEO Beta。
NEO 身高 5 英尺 5 英寸,大概 1 米 65,体重 30 公斤,步行速度 2.5 英里 / 小时(1.12 m/s),跑步速度 7.5 英里 / 小时(3.35 m/s),NEO 专为做家务而设计,可以承重 20 公斤,运行时间可达 2 到 4 个小时。
NEO 能做哪些家务呢?1X 展示的全都是高难度动作。整理一下高脚杯吧:
正在做饭,需要鸡蛋吗,给:
你看起来要出门,背上包吧:
有趣的是,NEO 干活,全程「静音」,主打一个陪伴,沟通主要靠「眼神交汇」,手势比划:
网友评论道:是否需要称之为「他」?
「下回我和 Claude、GPT 之类的 AI 对话时可要小心了。」
1X 机器人的人工智能副总裁、前谷歌资深科学家 Eric Jang 表示,在硬科技领域,最简单的东西也是非常难做的。我们制造了一款超静音机器人,它在人类周围非常安全。
NEO Beta 超越了传统的僵硬机器人,成为了具有仿生设计、可以在人类中安全工作的人形机器人。这是人形机器人领域一项重大进展,也标志着机器人公司 1X 从概念开发过渡到将人形机器人带入消费者家庭。接下来,NEO 将在挪威的工厂内进行大规模生产。
1X 旨在构建与人类一起工作的安全、智能类人机器人,来创造充足的体力劳动供应。为了实现这一目标,1X 类人机器人必须能够适应复杂的真实环境,才能有能力执行各种任务。
1X 首席执行官 Bernt Børnich 表示:「我们的首要任务是安全,安全是我们能够自信地将 NEO Beta 引入家庭的基石,它将收集重要的反馈并在现实环境中展示其功能。今年,我们将在选定的家庭中部署数量有限的 NEO 装置,用于研究和开发目的。这意味着我们朝着实现我们的使命又迈出了一步。」
与众不同的 1X 人形机器人
NEO 的身体采用类似人类肌肉组织的结构设计,而不是刚性的液压系统,因此显得既强壮又温和,就像人类一样。
NEO 可以行走、慢跑、爬楼梯,并自然地在用户所处的实际空间中导航。随着移动和执行任务,NEO 会变得更加高效。
NEO 为何一登场,在技术上就如此成熟?
实际上,1X 公司早期推出的旗舰产品 —— 轮式人形机器人 EVE 已经成功地进入了职场,在美国和欧洲部分地区投入商业化应用,例如在制造业协助后勤搬运等等。
EVE 为 1X 积累了大量通用知识,而 NEO 正是建立在 EVE 多年真实世界经验的基础上。
1X 第一代人形机器人:EVE
1X 在每个 NEO 部署之前,都会在真实场景中反复进行测试。1X 表示:「如果用户需要帮助,NEO 的视觉和动作可以迅速由远程人类操作员接管。」
1X 的测试表明,NEO 是一款具有广泛能力的人形机器人,在安保、物流、制造、操作机械以及处理复杂任务等行业中的工业任务中表现出色。并且,与 NEO 互动得越多,与 NEO 一起生活的体验就会变得越自然和直观。NEO 将理解所处的环境以及如何处理易碎物品,从而实现无缝协作和沉浸式的人机互动。
1X 还在研究 NEO 如何为行动不便的人士提供支持,比如取物品和提供陪伴。NEO 的潜力还延伸至科研领域,帮助机器人社区探索心理学和人工智能等领域。
关于人形机器人的设计,1X 认为,首先人类本身非常灵活,可以以各种方式移动。通过模仿人类形体和动作,1X 的机器人可以执行复杂的任务,并轻松地在环境中移动。
其次,人类擅长通过表情和手势等非语言的方式相互理解,当机器人看起来像人类时,他们可以使用这些熟悉的方式与人类沟通和合作。
最后,由于人类生活的世界中的一切都是为人类设计的,所以拥有符合人类外形的机器人可以更容易地融入我们的世界,而不需要做出太多改变。
借助具身人工智能(Embodied AI)技术,NEO 将通过融合 AI「感知」与其物理身体来更深入地理解环境。NEO 会不断学习和改进,随着时间的推移变得更加智能和高效。
OpenAI 看好的人形机器人公司
1X 是人形机器人领域的领导者,致力于创建通用家庭机器人,并解决物理智能问题。1X 专注于安全性,为消费者家庭提供实用且易用的产品。
1X 公司于 2014 年创立,公司最初由首席执行官 Bernt Børnich 以 Halodi Robotics 之名成立,以实现一种新解决方案:能够与人类一起执行劳动的通用机器人。
2022 年,1X 与 OpenAI 合作,将机器人技术与人工智能结合,为具身学习奠定基础。
近年来,1X 收获了外界巨额资金的支持,2024 年 1 月的 B 轮融资达到 1 亿美元,支持者中也有 OpenAI 的身影。
参考链接:
https://www.1x.tech/androids/neo
https://www.1x.tech/discover/announcement-1x-unveils-neo-beta-a-humanoid-robot-for-the-home
#将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。
前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经可以与 Transformer 匹敌,甚至超越 Transformer,同时还能维持随序列长度的线性可扩展性,这让 Mamba 具有有利的部署特性。
简单来说,Mamba 首先引入了一个简单却有效的选择机制,其可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。
最近,一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。
由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。
论文地址:https://arxiv.org/pdf/2408.15237
该研究的性能最佳模型是从 Llama3-8B-Instruct 中蒸馏出来的,在 AlpacaEval 2 上相对于 GPT-4 实现了 29.61 的长度控制(length-controlled)胜率,在 MT-Bench 上实现了 7.35 的胜率,超越了最好的指令调整线性 RNN 模型。
方法
知识蒸馏(KD)作为一种模型压缩技术,用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中,旨在训练学生网络模仿教师网络的行为。该研究旨在对 Transformer 进行蒸馏,使其性能与原始语言模型相当。
该研究提出了一种多级蒸馏方法,结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。
该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层进行训练。
该研究认为线性 RNN 和注意力机制之间天然存在一些联系。通过删除 softmax 可以线性化注意力公式:
但线性化注意力会导致模型能力退化。为了设计一个有效的蒸馏线性 RNN,该研究尽可能接近原始 Transformer 参数化,同时以有效的方式扩展线性 RNN 的容量。该研究没有尝试让新模型捕获精确的原始注意力函数,而是使用线性化形式作为蒸馏的起点。
如算法 1 所示,该研究将来自注意力机制的标准 Q、K、V 头直接馈入到 Mamba 离散化中,然后应用得到的线性 RNN。这可以看作是使用线性注意力进行粗略初始化,并允许模型通过扩展的隐藏状态学习更丰富的交互。
该研究用微调线性 RNN 层直接替换 Transformer 注意力头,保持 Transformer MLP 层不变,不训练它们。这种方法还需要处理其他组件,例如跨头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。
该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。
算法 2 和图 2 显示了完整的算法。该方法仅在缓存中保留一个 RNN 隐藏状态以进行验证,并根据多步内核的成功来延迟推进它。由于蒸馏模型包含 transformer 层,该研究还将推测解码扩展到 Attention/RNN 混合架构。在此设置中,RNN 层根据算法 2 执行验证,而 Transformer 层仅执行并行验证。
为了验证这种方法的有效性,该研究使用 Mamba 7B 和 Mamba 2.8B 作为目标模型进行推测。结果如表 1 所示。
图 3 显示了多步内核本身的性能特征。
H100 GPU 上的加速。该研究提出的算法在 Ampere GPU 上表现出强大的性能,如上表 1 所示。但在 H100 GPU 上面临巨大挑战。这主要是因为 GEMM 操作速度太快,这使得缓存和重新计算操作产生的开销更加明显。实际上,该研究的算法的简单实现(使用多个不同的内核调用)在 3090 GPU 上实现了相当大的加速,但在 H100 上根本没有加速。
实验及结果
该研究使用两个 LLM 聊天模型进行实验:Zephyr-7B 是在 Mistral 7B 模型的基础上微调而来, 以及 Llama-3 Instruct 8B。对于线性 RNN 模型,该研究使用 Mamba 和 Mamba2 的混合版本,其中注意力层分别为 50%、25%、12.5% 和 0%,并将 0% 称为纯 Mamba 模型。Mamba2 是 Mamba 的一种变体架构,主要针对最近的 GPU 架构而设计。
在聊天基准上的评估
表 2 显示了模型在聊天基准上的性能,主要对比的模型是大型 Transformer 模型。结果显示:
蒸馏后的混合 Mamba 模型 (50%) 在 MT 基准测试中取得的分数与教师模型相似,在 LC 胜率和总体胜率方面都略优于 AlpacaEval 基准测试中的教师模型。
蒸馏后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基准测试中略逊于教师模型,但即使在 AlpcaaEval 中具有更多参数,它仍然超越了一些大型 Transformer。
蒸馏后的纯 (0%) Mamba 模型的准确性确实显著下降。
值得注意的是,蒸馏后的混合模型的表现优于 Falcon Mamba,后者是从头开始训练的,使用了超过 5T 的 token。
一般基准评估
零样本评估。表 3 显示了从不同教师模型中蒸馏出的 Mamba 和 Mamba2 在 LM Eval 基准中的零样本性能。从 Llama-3 Instruct 8B 中蒸馏出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型与从头开始训练的开源 TRI Mamba 和 Nvidia Mamba 模型相比表现更好。
基准评估。表 4 显示经过蒸馏的混合模型的性能与 Open LLM Leaderboard 上最好的开源线性 RNN 模型相匹配,同时在 GSM8K 和 CRUX 中优于相应的开源指令模型。
混合推测性解码
对于 50% 和 25% 的蒸馏模型,与非推测基线相比,该研究在 Zephyr-Hybrid 上实现了超过 1.8 倍的加速。
实验还表明,该研究训练的 4 层 draft 模型实现了更高的接收率,不过由于 draft 模型规模的增加,额外开销也变大了。在后续工作中,该研究将专注于缩小这些 draft 模型。
与其它蒸馏方法的比较:表 6(左)比较了不同模型变体的困惑度。该研究在一个 epoch 内使用 Ultrachat 作为种子提示进行蒸馏,并比较困惑度。结果发现删除更多层会使情况变得更糟。该研究还将蒸馏方法与之前的基线进行了比较,发现新方法显示出较小的退化,而 Distill Hyena 模型是在 WikiText 数据集中使用小得多的模型进行训练的,并且显示出较大的困惑度退化。
表 6(右)展示了单独使用 SFT 或 DPO 不会产生太大的改进,而使用 SFT + DPO 会产生最佳分数。
表 7 比较了几种不同模型的消融研究。表 7(左)展示了使用各种初始化的蒸馏结果,表 7(右)显示渐进式蒸馏和将注意层与 Mamba 交错带来的收益较小。
表 8 比较了使用两种不同初始化方法的混合模型的性能:结果证实注意力权重的初始化至关重要。
表 9 比较了有 Mamba 块和没有 Mamba 块的模型的性能。有 Mamba 块的模型性能明显优于没有 Mamba 块的模型。这证实了添加 Mamba 层至关重要,并且性能的提高不仅仅归功于剩余的注意力机制。
#再见,AnandTech
他们成为了一个传奇故事。
「让人极度悲伤的是,这是我在 AnandTech 上撰写的有史以来最难以下笔的新闻。在 27 年疯狂的计算机硬件领域报道之后,今天是 AnandTech 的最后一天,」主编 Ryan Smith 写道。
昨天,老牌硬件科技网站 AnandTech 关停的消息在互联网上引发震动。多年以来,这家网站凭借其深入的硬件评论和分析在科技新闻界具有重要的影响力。
在硬件爱好者中,AnandTech 一直拥有忠实的受众群体,这归功于它对主板、芯片和其他硬件组件的详尽评测,细致的原理解读。其高质量的分析水准使其成为 PC 制造商、学者、同行记者及任何对计算机内部工作原理感兴趣的人的资源。
作为 AnandTech 的最后一篇文章,主编 Ryan Smith 发出了一封公开信:
无论如何,我们已经走到了漫长旅程的尽头 —— 从对 AMD 处理器的评测开始,到对 AMD 处理器的评测结束。这很有诗意,但也证明了我们在过去 27 年里一直做着自己喜欢的事情,报道作为计算机行业命脉的芯片。
在过去的四分之一个世纪里,很多事情都发生了变化 ——1997 年,英伟达甚至还没有创造「GPU」一词 —— 我们很幸运地看到硬件世界在这段时间里不断发展。我们已经从四四方方的台式电脑和笔记本电脑(今天我们可以宽容地将其归类为便携式电脑)发展到掌上电脑,即使是最便宜的设备也能让 1997 年最快的 PC 相形见绌。
这些年世界的发展也给出版界带来了翻天覆地的变化。AnandTech 当然不是第一个硬件爱好者网站,也不会是最后一个。但是,在过去的几十年里,我们很幸运地蓬勃发展了起来,这要归功于我们辛勤的工作、对人才和产品的战略投资,以及更辛勤的工作,还有我们许多朋友、同事和读者的支持。
然而,很少有东西能够永存,书面技术新闻的市场已经不复从前。所以,现在是 AnandTech 结束工作的时候了,让下一代技术记者在时代精神中占据一席之地。
过去 19 年里,我为 AnandTech 撰稿,并在过去十年里担任主编,这是我莫大的荣幸。虽然作为 AnandTech 的最后一位负责人,我感到很懊悔,但我至少可以为多年来取得的一切成就感到自豪,无论是赞扬一些传奇产品,编写至今仍具有现实意义的技术入门书,还是看着新星在我们预测的地方崛起。我还希望 AnandTech 能做更多的事情,但在发表了 2.15 万篇文章之后,可能一切已经无法继续了。
虽然 AnandTech 员工即将淡出,但我很高兴能告诉大家,该网站本身暂时不会消失。我们的出版商 Future PLC 将无限期地保留 AnandTech 网站及其众多文章。这样,我们多年来创建的所有内容都可以访问和引用。即使没有新文章添加到收藏中,我预计我们在过去几十年中撰写的许多内容在未来几年仍将具有现实意义,并且仍然可以访问。
AnandTech 论坛也将继续由 Future 的社区团队和版主团队运营。其中的论坛主题可以追溯到 1999 年(一些活跃成员的历史也一样长),论坛的历史几乎与 AnandTech 本身一样悠久。因此,即使 AnandTech 不再发布文章,我们仍然会为每个人提供一个讨论最新技术的地方,并且这些讨论会持续超过 48 小时。
最后,对于仍然需要技术写作帮助的每个人,我们过去 27 年来的对手 Tom’s Hardware 将继续报道科技世界。那里已经有几位熟悉的 AnandTech 老面孔提供他们积累的专业知识,该网站将继续尽最大努力提供有关技术新闻的书面报道。
Ryan Smith 回顾了 AnandTech 在过去 27 年取得的成就,感谢了很多个人、公司和团体。
Ian Cutress、Anton Shilov 和 Gavin Bonshor 在 ComputeX 2019 上。
27 年前,Anand Lal Shimpi 在自己的卧室里创办了 AnandTech。一个重要的节点是,2014 年 Anand 加入了苹果,成为 M 系列 Apple Silicon 芯片交付团队的一员。
虽然 Anand 早在十年前就已从科技新闻界退休,但他为质量设定的标准和他带来的经验至今仍在 AnandTech 中产生共鸣。
Ian Cutress、Anand Lal Shimpi、Joshua Ho 在 MWC 2014 上。
最后,对于所有正在或即将成为科技记者的人,Ryan Smith 请求他们履行职责,忠于自己,忠于读者需求,提供高质量的内容,保持真诚,为读者提供他们需要的深度报道。
深度报道或许没有其他内容那么吸引眼球,但在对抗现在众多浮夸和悲观的报道时,支持有根据的深度结论相比以往显得格外重要了。
1998 年,Anand 在主持 AGN 硬件 Show。
参考内容:
https://www.anandtech.com/show/21542/end-of-the-road-an-anandtech-farewell
https://news.ycombinator.com/item?id=41399872
#ViTaM
穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案
随着人形机器人技术的迅猛发展,如何有效获取高质量的操作数据成为核心挑战。鉴于人类操作行为的复杂性和多样性,如何从真实世界中精准捕捉手与物体交互的完整状态,成为推动人形机器人操作技能学习的关键所在。面对这一挑战,穹彻智能携手上海交通大学卢策吾和刘景全团队,创新性地提出了名为 ViTaM 的视觉-触觉联合记录和追踪系统。该系统包括高密度可伸缩触觉手套和基于视觉-触觉的联合学习框架,不仅在触觉手套的设计和制造上实现了技术突破,更通过视觉与触觉的深度融合,为理解手物交互过程状态提供了全新的视角和强大工具。
在人形机器人操作领域,有一个极具价值的问题:鉴于操作数据在人形操作技能学习中的重要性,如何有效地从现实世界中获取操作数据的完整状态?
如果可以,那考虑到人类庞大规模的人口和进行复杂操作的简单直观性与可扩展性,人形机器人再也不用担心没有高质量的操作数据资源了。
穹彻智能携手上海交通大学卢策吾和刘景全团队意识到,分布式触觉技术对于重建完整人类操作至关重要,当操作被遮挡时,触觉可以作为视觉的有效补充,从而一同还原出操作区域的形变状态、接触力位点和大小。因此,该团队提出了一种全新的视觉 - 触觉联合记录和追踪系统 ViTaM(为 Visual-Tactile recording and tracking system for Manipulation 的缩写),包括一个可伸缩的触觉手套,与一个基于视觉 - 触觉的联合学习框架。文章在 24 个物体样本中进行实验,涵盖了 6 个类别,包含刚性物体和可形变物体,重建误差均值仅为 1.8 厘米。
ViTaM 系统在未来发展中,有望被深度集成至机器人的电子皮肤之中,从而赋予机器人与周围环境进行无缝互动的能力。这不仅能够使机器人实时感知并精准响应多样化的环境刺激,更将极大提升其在复杂场景下的灵巧操作水平,推动智能机器人技术迈向更加先进和实用的新阶段。
- 论文名称:Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array
- 论文链接:https://www.nature.com/articles/s41467-024-53654-y
- 项目地址:https://github.com/jeffsonyu/ViTaM
演示视频:
,时长01:04
,时长00:18
,时长00:38
,时长00:22
,时长00:32
可以看到,对于刚体和可形变物体,系统都能进行高水准的重建,也同时适用于不同类型的物体,如纸杯,橡皮泥,剪刀等日常生活中常见的物体。
ViTaM 方法详解
图 1:A 人机交互中涉及人类操作的(i)无力交互和(ii)有力交互的任务及其响应结果。B ViTaM 系统概述:(i) 受人类启发的联合感知方法,在操作过程中同时处理跨模态的视觉和触觉信号,以实现状态跟踪;(ii) 可拉伸界面的应变导致的传感误差,它降低了力测量的精度和触觉传感器的应用效果;(iii) 触觉记录方案,包括具有主动应变干扰抑制功能的高密度可拉伸触觉手套,以及用于显式分布式力检测结果的 VR 界面;(iv) 由深度学习驱动的物体状态估计应用,能够重建物体的整体几何形状和接触区域的细粒度表面形变,特别是对于可形变物体。
ViTaM 系统核心挑战是要解决在与可形变物体进行带力交互时如何捕捉细粒度信息,当可形变物体能被正确捕捉时,刚性部件的交互就自然迎刃而解了。
该系统利用一个高密度、可拉伸触觉手套和一个 3D 相机记录操作过程,并利用一个视觉 - 触觉联合学习框架在几何层面上估计手 - 物体的状态。高密度触觉手套最多有 1152 个触觉传感通道分布在手掌上,当与物体交互时,会记录接触区域的手部物体状态,并以 13Hz 的帧速率准确捕捉手物交互过程中可拉伸界面上的力分布和动态(图 1B (iii))。同时,非接触区域的手与物体状态可以由高精度深度摄像头记录。
捕捉到的力测量和点云序列,经过视觉 - 触觉学习模型处理,融合跨模态数据特征,最终实现对不同形变材料的被操作物体的跟踪和几何三维重建(图 1B (iv))。
A. 硬件设计:触觉手套的设计与制造
在高精度触觉反馈系统中,如何准确地捕捉并传递手部与物体之间的交互力,一直是硬件设计中的一个核心挑战。特别是在涉及复杂手部运动和多点压力分布的情况下,传统的传感器系统往往难以满足高灵敏度和高可靠性的需求。因此,开发一款能够精确感知触觉信息并支持多通道力传感的手套式硬件设备显得尤为重要。受到现有触觉手套技术启发,团队研发了这一款创新的触觉手套系统。该手套包括多个模块(如图 2A 所示):触觉传感模块、织物手套、柔性印刷电路(FPC)、多通道扫描电路、处理电路以及一个腕带。系统设计的核心目标包括:
- 高效的数据传输与灵活的系统扩展:手套的设计采用模块化结构,便于根据不同需求调整传感器的密度或进行拆卸。其中,三种类型的 FPC 分别连接手指与掌心传感区域,支持最大 1152 个传感单元(原型系统配备 456 个传感单元)。
- 触觉传感的高精度与准确性:系统包含了力传感电路和应变干扰检测电路,以保证触觉数据的高精度采集与处理,这些传感器通过导电织物线路连接,形成行列电极阵列,以实现准确的力感应和应变测量。
- 人体工学舒适性:为了提高触觉手套的舒适性和适配性,采用了先进的织物传感技术,避免了传统方法中常见的胶层分层问题。每个触觉传感模块由正负应变传感器和力传感器阵列构成(图 2B)。这种全织法组装方式不仅提高了手套的耐用性和穿戴感,还使得手套更加适应复杂的手部运动和操作环境。
- 低成本与量产潜力:在系统的整体设计中,触觉手套经过多次测试验证,原型版的准确率达到 97.15%,证明其足以满足大多数人机交互应用的需求。成本方面,触觉手套的单价为 3.38 美元,而硬件总成本为 26.63 美元,使得该产品具备了较高的性价比,并有望广泛推广。通过加工工艺的逐步简化以及生产自动化技术的实现,该触觉手套在未来有着较大的量产潜力。
该触觉手套系统不仅能够精确捕捉力感信息,还具备高适配性和舒适性,适用于多种实际应用场景,如虚拟现实、机器人操作及医疗领域等。
图 2:触觉手套的具体设计:A. 最大传感通道为 1152 的高密度可拉伸触觉手套的放大示意图;B. (i) 带有两对应变电极、行电极阵列和列电极阵列的触觉传感块的结构;(ii) 显示应变电极位置的放大图;(iii) 显示紧密装配的触觉传感块侧视图。
B. 视觉 - 触觉联合学习在人类操作中的应用
在操作可形变物体时,手部与物体接触的力分布能够帮助揭示因形变而发生的几何变化。然而,由于形变区域几乎具备无限的自由度,完全估算物体形变的几何形状一直是一个难题。尽管触觉手套能够测量接触区域的分布力并帮助感知形变,但其覆盖范围仅限于部分物体表面,且即便是高密度、分布式的传感器网络也难以全面捕捉物体的完整几何信息。因此,团队认为,还需要视觉观测来弥补这一不足,从而恢复完整的物体几何形态。此类视觉 - 触觉交互机制与人类的认知过程高度相似。
团队提出了一种视觉 - 触觉联合学习框架,旨在手 - 物体重建和跟踪中恢复物体几何信息,尤其是在高度非刚性形变的情况下。该框架通过结合触觉数据和视觉信息,能够有效重建被手部遮挡或形变的物体细节。为了评估这一框架,团队制作了一个视觉 - 触觉数据集,包括 7680 个样本,涵盖 24 种物体、6 个类别。数据集中包括海绵、橡皮泥、瓶子和杯子等可形变物体,以及折叠架和剪刀等刚性物体。每个物体都进行了 20 次触摸,并通过 16 个不同的摄像头视角进行了记录。训练数据来自 RFUniverse,它支持基于有限元方法(FEM)的仿真,测试数据则来源于实际操作。
图 3: 该模型包含手部重建器、特征提取器、时间特征融合器和绕数场(WNF)预测器。全局和局部特征均从视觉和触觉输入中提取,并基于手部的区块位置。团队将这些特征融合在一起,利用时间交叉注意模块计算每点特征,预测采样位置的 WNF,并通过行进立方体算法重建物体几何形状。
实验验证
团队从两方面验证了系统的有效性:触觉手套与可形变物体交互分析,以及视觉 - 触觉联合学习的物体重建效果评估。
A. 触觉手套与可形变物体交互分析
为了验证触觉手套的性能,团队设计了一个动态的饺子制作任务,使用软橡皮泥作为高度可形变的物体进行实验。该任务包括将橡皮泥揉成球状,然后将其压成扁平形状(作为饺子皮),最后用手指捏合皮边。首先,当手掌将橡皮泥揉成球状时,图 4A 展示了手掌传感区域(称为手掌块)的归一化压力变化。其次,在手掌按压橡皮泥球时(图 4B),经过应变干扰校正后的归一化压力高于未经校正的结果。第三,将饺子皮对折并用拇指和食指捏合边缘(图 4C)。归一化的捏合压力显示,经过校正的压力曲线在三个子阶段明显增加,这可能是由于形变带来的显著应变和未校正的压缩力减少所致。
此外,团队还研究了在需要手指与手掌协作的操作中,应变干扰校正前后的触觉传感块表现。例如,在反复捏合并释放海绵时(图 4D)。未校正的操作只涉及六个活跃的手指块和九个活跃的手掌块,这些块的相关系数大于 85%(图 4E (i))。经过校正后,团队发现了两个额外活跃的手指块和五个手掌块(图 4E (ii))。图 4F (i) 展示了校正前活跃块的归一化压力变化,图 4F (ii) 则展示了校正后压力变化较小的块。Spearman 相关性结果分别展示了未校正和校正后的数据(图 4G (i) 与图 4G (ii))。位于中指远端指骨上的块 3-1 与其他块的相关性最高。校正后,出现了更多的相关性,表明所有手指块在捏合海绵时都发挥了作用,尤其是块 2-2、块 5-1、块 5-2 和块 5-3。像块 3-1 和块 2-1 这样的块,在校正后相关系数增加超过 85%,这表明相关块之间的协同效应得到了增强。图 4H 展示了校正后强相关数量的增加,进一步说明了即使在应变干扰的情况下,校正也有助于深入挖掘不同手指与手掌之间的依赖关系。
触觉手套还能够在操作过程中帮助估计物体形状,尤其是在抓取各种物体时 —— 无论是软物体(如塑料滴管、毛巾、塑料瓶)还是硬物体(如画笔、勺子、小针)。在虚拟现实界面中,可以明显看到沿物体边缘的力反应。
团队还考虑了手部姿态的干扰。图 5-1 与 5-2 分别比较了两种典型动作 —— 揉捏面团和抓取海绵 —— 在空手姿态和与真实物体交互时的归一化压力曲线。与空手姿态相比,实际交互时的归一化压力曲线分别增加了 12 倍、16 倍和 6 倍。较低幅度的噪声可以通过视觉 - 触觉联合学习框架轻松滤除。在监督学习设置下,相关信号(例如接触重建)得到增强,不相关信号则被抑制。
图 4:包饺子任务以及三个动作的触觉反应和归一化压力结果:(A) 揉、(B) 压和 (C) 捏。D 反复捏放可形变海绵的抓取任务照片。E 海绵抓取任务中主动触觉传感块的分布(i)不含应变干扰抑制,(ii)含应变干扰抑制。F (i) 未进行应变干扰抑制的主动块和 (ii) 抑制后进一步显示的块的归一化压力曲线。G 海绵抓取任务中(i)无应变干扰抑制时和(ii)有应变干扰抑制时斯皮尔曼相关分析的弦图像。H 校正前后所有手指区块和手掌区块的强相关数量。
图 5-1:(A) 揉捏操作中的手部姿势任务和 (B) 实际揉面动作与归一化压力曲线。
图 5-2:(A) 在抓取操作中的手部姿势任务和 (B) 实际抓取海绵时的压力曲线。
B. 视觉 - 触觉联合学习的物体重建效果评估
为了验证 ViTaM 系统的有效性,研究者们进行了定性和定量对比测试,以回答以下问题:(1) 特定于触觉阵列的数据格式是否能有效地向学习算法传递几何信息?(2) 与其他形式的传感器(如 RGB-D 相机或光学触觉传感器)相比,它是否更有效?
a) 定性结果
为了展示提出的联合学习框架的有效性,团队展示了两个弹性物体(海绵)和一个刚性物体(剪刀)的接触物体重建。从图 6A 中可以看到,真实数据中的手和物体都得到了很好的重建,而且在触觉信息的帮助下,还可以重建手部遮挡的细节形状。更重要的是,在应变干扰抑制后,基于触觉反馈重建的可形变海绵可以在应变明显的区域显示出更多微小细节,而且由于应变干扰抑制方法有助于恢复施加在刚性边缘上的真实微小力,刚性物体的完整性也得到了改善。图 6B 展示了逐渐形变的塑性体,它代表了捏饺子皮的包饺子任务。塑性体在每个步骤中的形变都得到了很好的展示。在图 6C 中,团队重建了一个刚性折叠架,该折叠架采用了手与物体上不同位置的多次接触。折叠架的细节是通过多次接触与迭代触觉信息嵌入(tactile embedding)来逐步完成的。此外,为了证明视觉 - 触觉联合学习的必要性,在图 6D 中展示了剪刀、折叠架和瓶子的纯视觉结果和视觉 - 触觉结果。得益于视觉和触觉特征的结合,刚性和可形变物体都得到了很好的重构。在图 6E 中,重建的序列证明研究者所提出的方法能够处理多帧的连续数据。因此,该视觉 - 触觉模型性能的提高证明,引入应变干扰抑制的触觉信息对于获得手部遮挡的特征和获取可拉伸界面上物体的动态形变都是至关重要的。
图 6:A. 在没有应变干扰抑制和有应变干扰抑制的情况下,两块弹性海绵和一把刚性剪刀的接触物体重建。B. 在没有应变干扰抑制和有应变干扰抑制的情况下,用手操作逐渐形变的饺子形塑性体的三个重建阶段。C. 手在物体不同位置多次接触后重建的刚性折叠架。D. 剪刀、架子和瓶子的纯视觉和视觉 - 触觉重建结果,显示了视觉 - 触觉关节学习的优越性。E 根据在现实世界中收集到的视觉 - 触觉数据对可形变的杯子和可形变的海绵进行重建的序列结果。
b) 定量结果
团队同样使用了定量指标对方法进行了评估。从表 1 中可以看到,ViTaM 在真机数据下的表现很理想, 大部分的物体都能做到重建误差的倒角距离在 1~2 厘米之内。在实验中,首先,团队将现有的纯视觉解决方案的性能与 ViTaM 系统的算法(不包括触觉编码器)进行了比较;其次,将该算法与之前的一项工作 VTacO 进行了比较,后者采用了基于硅胶的光学触觉传感器 DIGIT 来记录接触形变。在表 2 中可以看到 ViTaM 与前人方法的结果的倒角距离比较。可以发现,ViTaM 系统在重建弹性、塑性、铰链式和刚性四种类型的物体时,表现出优于纯视觉方法的性能。例如,使用 ViTaM 系统重建海绵的倒角距离仅为 0.467 厘米,与 VTacO 相比提高了 36%。基于硅胶的光学触觉传感器可以获得更高分辨率的局部几何信息,如尖锐边缘或严重形变,而分布式触觉手套设计则可以在遮挡过于严重而无法获得视觉信息时获得更全面的特征。
表 1:ViTaM 方法在真机物体上的重建效果指标
表 2:ViTaM 方法与前人的基线方法的定量指标的比较
结论与未来展望
在复杂的操作任务中,捕捉手与可形变物体之间的触觉数据并进一步估计手物状态一直是一个巨大挑战。特别是,缺乏准确、分布式且具有可伸缩性的触觉阵列,阻碍了视觉 - 触觉学习的融合,限制了对一般人类操作的理解。尤其是在可伸缩界面上的应变干扰,会严重影响力的测量准确性和应用效果。
本文提出了一种用于操作的视觉 - 触觉联合记录与跟踪系统,其中触觉输入通过一款具有 1152 个传感通道和 13Hz 帧率的高密度可伸缩触觉手套捕获。该触觉手套集成了一种主动的应变干扰抑制方法,其力测量的准确率达到 97.6%。与未经校正的测量数据相比,ViTaM 的传感器准确度提升了 45.3%。这一主动方法在材料 - 电路层面工作,更符合人类在接触刚性或可形变物体时的自适应触觉感知。与传统的应变干扰抑制策略相比,从结构设计和材料选择角度来看,本文提出的主动方法具有易于集成、成本效益高、大面积适配、耐用性强及广泛的应变抑制范围等优点。ViTaM 系统实现了跨模态数据特征的融合,揭示了手物交互过程中的被遮挡状态,推动了智能体在人形体与机器交互(HMI)中理解能力的发展,尤其是在力学交互方面,向人类触觉感知的水平迈进了一步。
展望未来,ViTaM 系统将被集成到机器人表面覆盖的电子皮肤中,实现与周围环境的无缝互动,能够感知并响应多种环境刺激。此外,捕捉和恢复人类操作过程中的动态状态将有助于更好地理解人类行为,并提升机器人灵巧操作的能力,推动从物体特定操作到通用操作场景的技术进步。
#OpenAI 、Anthropic、谷歌新模型表现均不及预期
五年内 AGI 还能否如期而至?
谷歌、Anthropic、微软和 OpenAI 都是 AI 领域的顶尖玩家,但现在看来,这些公司在开发更先进的 AI 大模型时都遇到了不小的困难。
OpenAI 曾接近一个重要的里程碑。9 月,他们完成了一个全新 AI 大模型的首轮训练,希望能远超 ChatGPT 现有技术水平,朝着打造超越人类的 AI 这个目标更近一步。
不过,彭博社援引两位知情人士消息,这个内部代号「Orion」的模型并没达到预期效果。比如,到了夏末的时候,Orion 在处理没见过的编程问题时表现还不够理想。
总的来说,和 OpenAI 现有的模型比起来,Orion 的进步幅度远不如从 GPT-3.5 升级到 GPT-4 时那么大。要知道 GPT-3.5 可是 ChatGPT 最早用的那个系统。
一位消息人士告诉彭博社,这一挫折意味着 OpenAI 不太可能在明年年初之前向其用户推出 Orion。与此同时,据三位知情人士透露,谷歌的下一个 Gemini 迭代本应是一次重大升级,但其表现也低于内部预期。同样,期待已久的 Anthropic Claude 3.5 Opus 的发布也被推迟。生成式 AI 在训练中高度依赖于互联网数据。虽然它们在快速生成响应方面表现出色,但似乎已触及瓶颈,无法找到新的高质量内容源来开发更高级的 AI 系统。两位消息人士告诉彭博社,Orion 的编码性能不佳是由于缺乏足够的编码数据进行训练。出版商和作者则担心 AI 系统在未经同意或补偿的情况下抓取他们的内容进行训练。微软和 OpenAI 也正在应对多起版权侵权诉讼。OpenAI CEO Sam Altman 承认,在没有版权内容的情况下开发类似 ChatGPT 的工具几乎是不可能的。他也指出,版权法并未明确禁止使用受版权保护的内容来训练 AI 模型。OpenAI 最近在一场版权侵权诉讼中胜诉。纽约联邦法官说得很明白:
让我们搞清楚这里真正的问题是什么。原告( Raw Story 和 AlterNet )真正想要追究的,并不是说 OpenAI 删除了版权管理信息,而是 OpenAI 没给钱就用了他们的文章来训练 ChatGPT。
高质量数据的缺乏并不是限制高级 AI 模型发展的唯一问题。构建和维护新模型的高成本也是一个重要障碍。据报道,在过去的几个月里,OpenAI 预计亏损 50 亿美元。然而,他们通过另一轮融资成功续命——从微软、英伟达和其他主要投资者那里筹集了 66 亿美元。
虽然这轮融资让市值飙升到了 1570 亿美元,但市场分析师预测,这家公司还没渡过难关。由于和微软的数十亿美元合作关系等因素,在 2029 年开始盈利之前,OpenAI 可能还要面临 440 亿美元的亏损。通过最新一轮融资获得的延长生命值后,OpenAI 也面临两难:要么在未来两年内转型成为营利性公司,要么就得把投资者的钱退回去。这种情况可能会引来外部势力的干预和恶意收购,其中就包括微软可能在未来 3 年内收购 OpenAI 的可能性。值得一提的是,这已经是 OpenAI 第八次向投资者伸手要钱来支持其 AI 项目的开发了。OpenAI 这一动作已经遭遇了重大阻力,包括马斯克提起诉讼,指控公司背离了创立初衷,还涉嫌参与敲诈勒索活动。专家预测,这一转变还会遭到员工、监管机构和政府部门的强烈反对。至于 OpenAI 何时会发布 Orion 模型,目前还没有确切时间表。据彭博社消息,模型已经进入训练后期阶段,这表明离正式对外发布已经不远了。不过,尽管 OpenAI 投入了大量精力,这个 AI 模型的表现还是不如预期。因此,公司决定把发布时间推迟到明年初。此外,OpenAI 似乎打算改变传统的模型命名方式。因此,这个新模型可能不会用我们熟悉的命名方式。Sam Altman 曾表示,GPT-4 的继任者会「更智能」,运作方式更像一个「虚拟大脑」。他还确认公司今年晚些时候会发布一些重要产品,但强调「不会叫 GPT-5 」。总的说来,这些公司都在追逐通用人工智能( AGI )这个目标,但按照 Sam Altman 的估计,这可不是件容易事。他说,要建造 36 座半导体工厂和额外的数据中心,需要投入 7 万亿美元,还得花很多年时间。这番话一出,很多人觉得简直是天方夜谭,也让 Altman 被贴上了「键盘侠」的标签。有意思的是,尽管说需要这么多投入,Altman 却又声称用现有的硬件就能实现 AGI 。
#TokenFormer
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!
本论文第一作者是汪海洋,北京大学20级博士生,目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威,北京大学智能学院教授;Bernt Schiele,德国马普计算所教授;Federico Tombari 谷歌人工智能科学家等。
新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦!
TokenFormer 不仅像原始 Transformer 一样 Token 化了 input data,并且 Token 化了网络参数,将 attention 机制拓展到 Token 和 parameters 的交互中,最大化了 Transformer 的灵活性,真正得到了一个 Fully attention-based 的网络结构。
这种方式打破了原有人们区别看待 data 和 model 的观念,即所有的计算都归纳为不同类型的 Token(e.g., data, param token)通过灵活的 attention 来交互。得益于这一灵活的性质,TokenFormer 允许 incremental scaling model size,基于训好的模型上增量的拓展新的更大的模型,大大节省了计算的开销:
这项名为 TokenFormer 的新工作,由谷歌,马普计算所和北大的研究者提出,在 Twitter,HackerNews, Reddit 上得到广泛的讨论和关注 (Twitter 上有 150K + 的浏览量)。
目前代码、模型和项目主页均已放出:
- 论文链接:https://arxiv.org/pdf/2410.23168
- 开源代码:https://github.com/Haiyang-W/TokenFormer
- 开源模型:https://huggingface.co/Haiyang-W
背景介绍
得益于其处理各种数据的灵活性,Transformer 网络结构在各个 AI 领域都取得了巨大的成功。
Transformer 模型通常将处理单个 Token 所需的计算分为两个部分:与其他 Token 的交互(Token-Token Interaction)和涉及模型参数的计算(Token-Parameter Interaction)。
Attention 促进了 Token-Token 之间的交互,使现代通用基础模型能够将多模态数据编码成统一的 Token 序列,并有效捕捉它们之间的复杂依赖关系。
相反,Token-Parameter 计算主要依赖于固定的 linear projection,大大限制 model size 的 scaling。Scaling model 是通常改变模型结构,往往需要从头训练整个模型,带来了过多的资源消耗,使其越来越不切实际。
在本文中,研究团队使用 token 这一概念建模所有的计算,即将 model parameters 也视为一种 token,网络的计算统一为各种不同的 token ( e.g., data tokens and parameter tokens) 之间通过 attention 来进行交互,大大增强了 Token-Parameter 交互的灵活性,从而能够增量式的扩展模型参数,有效地重用先前训练的模型,从而显著降低了训练负担。
为实现这一目标,研究团队引入了 TokenFormer。统一 Token-Token 和 Token-Parameters Interaction 的计算。其 Token-Parameter attention 具有灵活性,并能够处理可变数量的参数,从而本质上最大化了 Transformer 的灵活性,增强了模型的可扩展性。
TokenFormer 提供一种新的看待模型的视角,即网络的计算就是一些 Tokens 相互任意交互。基于这些 Tokens (e.g., data token, parameter token, memory token)和 attention 机制可以灵活地构造任意的网络结构。
该团队希望 TokenFormer 作为一种通用的网络结构,不仅在 incremental model scaling 上有贡献,还在 Sparse Inference, Parameter-Efficient Tuning, Vision and Language Models, Device-Cloud Collaboration 和 Model Interpretability 等领域有更多的贡献。
方法
Tokenformer 的核心创新是 Token-Parameter Attention(Pattention) Layer,它结合了一组 Trainable Tokens 作为 model parameters,并通过 cross-attention 来管理 Input Token 与这些 Parameter Tokens 之间的交互。
通过这种方式,Pattention 层引入了一个额外的维度 —Parameter Token 的数量,这一维度独立于输入和输出维度。此解耦方式使得输入数据可以与 variable number of parameters 进行交互,提供了增量模型扩展所需的灵活性。
Pattention Layer: 具体来说,就是让 input data 作为 query, 研究团队引入了两组具有 n 个可学习的 Tokens:
代表 key,
表示 value。输出如下:
其中 Θ 是改进的 softmax,为了防止梯度 exponential 带来的梯度问题,
这里 f () 是任意非线性函数,默认使用 gelu。
。
研究团队使用 Pattention Layer 替换掉标准 Transformer 中的所有的 linear projection,最大化 Transformer 的灵活性。
应用:天生的增量式 Model Scaling
有了 TokenFormer 这一灵活的性质,可以延伸出很多应用。这里以增量式 model scaling 为例。
假设已经训练好了一个 TokenFormer,其 key parameters 和 value parameters 计为
和
。
如上图所示,加入新的重新初始化的 key-value parameter pairs,计为
和
,进而组合成新的 key-value set,
然后使用 pattention layer,让 input data 与 Parameter tokens 进行交互。
这里直观的理解就是每个 Key-Value 代表一种学好的 pattern,其组成一个巨大的知识库。文中的 incremental scaling 就是在原有的知识库上进一步拓展训练。
实验结果
增量式 model scaling:如下右图所示,模型在已经训好的 124M 的模型的基础上,采用增量式训练,只用十分之一的数据就可以达到从头训练策略相近的性能,让模型可以不断迭代,真正地活起来了。
Language Modeling:如下表所示,研究团队比较了 Transformer-based 的模型和 TokenFormer 在语言建模上的能力。
在相同规模、相同模型尺寸下, TokenFormer 在大大增加灵活性的前提下达到了比 Transformer 更好的 zero-shot 性能。这里研究团队 follow 了 pythia 标准的训练代码以及数据集:Pile (300B)。上述结果展现了 TokenFormer 在语言模型建模上的能力。
Visual Modeling: 为了进一步验证 TokenFormer 的表达能力,研究团队还和标准的 vision transformer 进行了对比。
在 ImageNet-1K 的监督训练的 setting 上,使用相同的训练策略, TokenFormer 的性能超过了 vision-transformer,验证了其在 visual modeling 上的能力。
未来研究方向
极致的专家混合(Mixture-of-Experts)范式
研究团队认为 Tokenformer 是专家混合(MoE)框架的极致实例化,其中每一组键 - 值参数对都充当一个独立的专家。这种创新的类 MoE 架构有可能显著减少与 Token-Parameter 交互相关的计算成本。
新的参数高效微调范式
Tokenformer 的扩展方法通过集成额外的 key-value parameter pairs,展现了一种参数高效的微调策略。当面对新任务或数据集时,该模型可以通过加入新的 Token Parameters 来扩展其预训练参数,从而快速适应特定任务需求。
整合视觉和语言模型
利用 Tokenformer 的参数高效微调能力,可以实现视觉和语言模态的无缝集成。具体方法是将预训练的 Visual Tokenformer 和 Language Tokenformer 的 key-value parameter Tokens 统一为一个参数集,然后引入新的 Trainable Tokens 来执行视觉 - 语言对齐和指令微调。
端云协同
Tokenformer 可以在设备 - 云协作中充当云端知识库,为设备端的大语言模型(LLM)提供支持,其中每组 key-value parameter tokens 代表一个可学习模式,通过设备进行实时处理,并利用云端执行密集任务。
增强模型的可解释性
由于 Tokenformer 完全基于注意力机制,它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性,为 AI 社区开发更透明、易理解的模型贡献力量。
标签:AI,51c,43,情感,Meta,Llama,触觉,合集,模型 From: https://blog.csdn.net/weixin_49587977/article/details/143778163