关于智能代理、开源模型、安全性等
·
摄影:Phil Desforges,来源于Unsplash
在今年年末的一场人工智能会议上,我正待在演讲者休息室完成工作时,三位大声喧哗的人工智能高管走了进来,距离当天倒数第二个关于“人工智能的未来”的专题讨论还剩不多时间。他们瞥了我一眼(很可能是为了确认我只是个无害的路人角色),然后其中一位大声说:“这应该是我今年参加的第……30场?还是35场?会议了。”
停顿了一下,他又补充道:“……你知道吗,这些会议都开始显得大同小异了。”
尽管我在琢磨是否需要在耳朵里装上护栏来屏蔽这些隐隐的炫耀之词,但不得不承认,他说的有道理。在人工智能的叙事中,确实存在一种令人不安的“同质性”。听起来大概是这样的:
• AI代理和代理化工作流是下一波浪潮。
• AI试点项目比比皆是,但AI在生产环境中的应用仍然难以掌控。
• AI不会取代你的工作,但懂AI的人会。
• AI治理很重要,什么什么欧盟AI法案。
进入2025年之际,尽管每年有超过24万篇AI研究论文发表,但真正具有突破性的成果似乎凤毛麟角,大多是在追求另一个非标准化基准数据集的渐进式改进。同样,新颖的叙事似乎也和突破性的AI研究一样稀缺。
在这样的背景下,我对2025年的预测试图展现AI领域的紧张局势,以一种不受欢迎但平衡的视角来看待这个问题,作为一个工作不是靠销售AI赚钱,而是靠有效实施AI并承担决策后果的人。
- 智能代理既是2025年的热潮,也是1995年的警示
谈论人工智能的未来,不提到关于智能代理的大量热议是不可能的。所以,让我们先将智能代理放到一个正确的视角中来看。
首先,智能代理是基于生成式AI(简称“生成AI”)开发的一种有前景的用例。生成AI的一个被低估的关键特点是,它不仅是“生成式”的,也是“通用”的。一个模型可以执行多个任务,包括一些它没有被明确训练过的任务。
因此,语言模型也能够进行“推理”,通过多个模型的多次调用以及数据、能力和上下文的不同组合来实现半自主活动。这种影响是深远的:
• 智能代理可能成为新的SaaS(软件即服务)——服务即软件。
• 它们允许开发能够执行任务的程序,这些任务本来需要明确且刻意的开发努力来实现。尽管自治性有限,但这就是智能代理的核心承诺。
然而,这并不是智能代理第一次出现在热议周期中。
来源:Researchgate,2008年文章引用1995年Gartner的技术炒作周期
与此同时,我们需要清醒地超越热潮看问题。我引用上图——1995年的Gartner新兴技术炒作周期的快照来说明问题。
没错,1995年。当时视频会议和Wi-Fi还被认为是“新兴技术”。
几代数据科学和人工智能专业人士成长的过程中,很少接触到传统人工智能(简称“GOFAI”)。但“智能代理”这一理念早在1995年之前就已是AI的核心。
在被誉为世界上最受欢迎的人工智能教科书《人工智能:现代方法》中,作者斯图尔特·拉塞尔和彼得·诺维格将“智能代理”的概念直接放在序言的第二页。
因此,关于智能代理的承诺,我们需要记住,这并不是世界第一次尝试从智能代理中创造价值。技术的基本原理已经发展,但也带来了需要解决的新AI安全和AI安全性问题,这需要时间。
本质上,我们提升了能力,但将一种失败模式替换为另一种失败模式。我们从脆弱的、狭窄的、手工构建的工作流和严格定义的知识,转变为基于协调、叠加和链式调用的、具有广泛可能性的概率性工作流。此外,我们还为它们提供了记忆和工具。
就像培养一个正在学习适应物理世界的五岁孩子一样,我们可以谈论他们未来有多聪明,但今天的关键考虑是如何与他们沟通,他们可以做什么,哪些工具需要等他们足够成熟后才能接触。
在那之前,还需要教育周围的人不要太过认真看待他们。
- 专家模型和开源模型对大型提供商构成严重挑战
关于AI公司的新闻过度集中在OpenAI、Anthropic和Google等大型公司身上。但由于开源发布和早期模型泄漏的结合使得广泛的实验成为可能,开源和专业模型目前正准备提供可信且有意义的差异化替代方案。
然而,考虑到前沿模型的训练成本高达1.91亿美元,这如何成为可能?
答案不仅在于“开源正在赶上”这一模糊说法,还在于专门化模型策略的崛起,例如Qwen 2.5的“基础模型家族”(Party of Foundation Models)。
与Llama 3通过8B、70B和405B参数的“标准尺寸”模型不同,Qwen模型套件采取了一种不同的策略,为数学、编码和语言任务提供了单独的模型。
从一开始便为更狭窄的任务进行优化不仅从训练数据的角度更加高效,还因为能够叠加任务特定的优化而变得更好。
为更环保、更高效和更合适的模型干杯。
- 模型卡将催生代理卡和数据卡
如果你对模型卡不熟悉,简单来说,它是一种标准化的报告卡,用于分享训练好的AI模型在性能、安全性和适用性方面的信息。这种工具服务于复杂AI价值链中的许多利益相关者,从政策制定者到运营团队再到终端用户。
目前,模型卡仍在解决一系列问题,其中一个主要问题是非标准化基准的泛滥。如果将模型比作学生,那么就像一个学生参加SAT考试,另一个学生参加GRE,还有第三个学生参加GMAT,他们都宣称自己是班上最优秀的——但却在分享“班级”的定义时选择性地模糊处理。
尽管存在这些问题,模型卡作为一个领域备受关注,充满希望。
就像教育机构有动力确保其学生的资格能够被雇主认可一样,模型提供商也有动力通过模型卡来展示其模型质量,以获得模型使用者的认可。
因此,在一个需要为数据提供商和智能代理找到商业模式的世界中,模型卡的下一波发展很可能会补充代理卡和数据卡。
代理卡很容易理解——模型卡的初衷是透明地展示能力,而代理卡则是其逻辑延伸。它可能包含以下组件:允许的操作、工具的使用、可访问的数据及其访问权限的实现方式、安全性和安全测试的通过情况、以及代理“知道”什么或“记得”什么。简而言之,这将是AI代理的简历。
数据卡则有着更复杂的历史。首先,它们并不新鲜,早已以各种形式出现,被用作促进数据共享和使用的载体。最近,“数据网格”(Data Mesh)概念将数据作为产品作为核心原则。
名称方面也不新。谷歌曾试图推广“数据卡操作手册”的概念。这是一份优秀的开放内容,是非常值得称赞的尝试——尽管如果谷歌自己的模型能遵循这一标准,那就更好了。
无论历史如何,生成式AI都因另一原因而迫切需要数据卡。拥有一个关于数据透明性和来源的标准,将是确认数据提供者身份并让他们参与生成式AI价值创造的关键。
作为补充,在这个大多数人追随Meta(咳咳)、OpenAI和Anthropic的世界里,我惊讶地发现,IBM竟然是提供模型训练数据最好案例之一。虽然他们的Granite模型规模较小,且未被设计成击败当前的SOTA基准,但其训练过程和用于模型训练的单个数据集却极为详细。
- 非结构化数据管理的紧迫演进
多年来,我们一直在谈论数据大多是非结构化的,估计非结构化数据占比在80%到90%之间。
与此同时,在生成式AI出现之前的那个不算太遥远的过去,我们发现超过80%的企业无法利用非结构化数据。
看出问题了吗?没错——尽管数据仓库、数据湖、数据冰山甚至数据湖仓的不断演进,今天的大多数数据管理解决方案仍然未能有效支持生成式AI。
从查询JSON文件到多种知识表示和嵌入,之间的差距巨大。那些构建大规模生成式AI的企业,要么自己开发这些技术,要么进行收购。
- 生成式AI对“经典”AI的影响
需要记住的是,驱动生成式AI的Transformer模型不仅是“生成式”的,同时也是“预训练”的和“通用”的。这对开发和部署团队有着巨大的影响。
从数据科学和人工智能组织的视角来看,我们可以依次分析这三项变化:
生成式AI意味着运维需要管理用户生成的内容。
MLOps团队在生成式AI中承担了新的职责。然而,由于厂商们喜欢发明新的术语来抢占市场心智,这些变化有时让人感到不必要的困惑。我想象他们围坐在会议桌旁讨论:“嘿,为什么不把MLOps升级成一个新词,比如LLMOps?或者AIOps?干脆再加上AgentOps吧。”
无论这些术语最终落在哪儿,模型管理技能的转变确实重要,但也忽略了核心问题。生成式AI运维的定义特征不仅是管理更大的模型,而是管理用户生成的内容。
从窄用途、定制化的模型到现在的通用AI系统,用户在提示中拥有了更大的自由时,总会生成他们不该生成的内容。这种新世界需要传统上更适合社交媒体平台的技能——内容过滤、审核、用户内容政策和事件报告——但这些正是现在运维必须解决的问题。
数据科学家从模型训练转向模型选择与评估。
当团队成员以前主要负责训练模型,现在主要负责使用预训练模型时,会发生什么?答案是选择最适合每种用例的预训练模型(模型选择),并通过了解相关的性能、安全性和安全维度来完成这一过程(模型评估)。
从模型训练者到模型评估者的转变并非易事——它需要新的知识、新的工具、更多的指标,以及对供应商网站上通常列出的基准与实际生产环境中性能差异的理解(提示:不完全相同)。
通用模型既简化了未来,又为回溯工作带来负担。
生成式AI引入的通用模型不仅能够生成,还能够执行传统AI系统无法实现的多样化任务,深刻影响了经典AI。然而,这些模型并非在所有维度上都优于传统机器学习或统计模型。即便它们在性能上占优,出于效率、可解释性或一致性的考虑,人们也可能选择不采用它们。
- AI安全性与AI安全性之间的邻接性迫使数据科学与网络安全协作
关于数据科学与网络安全的重要交集,很少有人讨论。现有的相关内容大多来自这两方面的独立领域,而鲜有交叉。然而,初步尝试定义两者各自边界的研究过于学术化,对企业部门实际运作没有多少帮助。
但压力正在累积——自2023年以来,已有不下10个国家设立了AI安全研究机构,同时国际组织和安全社区在AI安全标准上的工作也迅速达到了可实施的成熟阶段。
此外,最近在该领域出现了一些优秀的出版物,比如普林斯顿大学与其他16家学术和行业研究机构联合发表的论文《AI风险管理应同时包含安全性与安全性》。这表明,AI安全性与安全性终于准备好携手在2025年作为一个有效的联合力量崭露头角。
我想提供一个简单明了的“解释给五岁孩子听”的版本,希望它能为大家带来清晰与简化:
• AI安全性:保护AI系统不被恶意分子攻击。
• AI安全性:保护人类不被恶劣的AI系统所伤害。
- 一万亿美元的AI基础设施投资重新定义多模态的商业模式
最近,高盛的两份报告探讨了在生成式AI基础设施上花费的一万亿美元资本支出是否投入过多而收益过少。
投资AI的金融叙事总是很有趣,投资高管们以各种市场语言扭转话术以合理化“错失恐惧”(FOMO)。
未来AI计算的方程可能极其复杂:
• 模型规模在增加,参数数量自2018年以来每年增长2.8倍。但这种增长规律正在被质疑。
• 模型数量在增加,但需小心不要将模型数量与微调混淆。在HuggingFace上的120万+模型中,超过50,000个可能只是Llama模型家族的微调变体。
• 对通用GPU的依赖将在中期下降,AMD(去年推出M1300X)和超大规模供应商(微软Azure推出Maia AI加速器)正试图提供替代方案。
• 推理需求因终端用户的采用而增长,尤其是高成本的多模态模型和后端使用的代理化工作流。
• 效率在上升,从生成式AI管道到部署堆栈的优化技术激增。这些技术覆盖了模型(SLM)、提示管道(压缩)、部署(量化)和基础设施(性能可扩展性和优化)。
但或许更重要的是,上述每一项的成本,今天由一些人支付,明天则可能转嫁到企业和终端用户身上。可以预计,在2025年,我们将面临各种定价实验。
编辑补充:在我完成初稿后,OpenAI已推出200美元/月的专业版订阅。
- AI迫使企业重新正视公民开发
“公民开发”一直是一个灰色地带,是各种标签和类别试图控制却始终无法明确定义的领域。最终,在无处不在的Excel宏和部署到生产环境的全栈应用之间,需要划定明确的界限,以决定何时应用适当的技术风险控制。
软件的发展趋势始终是朝向更高级的语言、库和框架以实现更多抽象化,同时“低代码/无代码开发”也不断普及。然而,生成式AI带来了可能是迄今为止最强大的挑战。
自然语言成为一种编程语言,这一趋势对用户和开发者之间的壁垒构成了前所未有的冲击。
不论人们对生成式AI的看法如何,其最重要的特性之一是,它决定性地从数据科学领域跨越到了消费技术领域。而企业现在面临着新一代公民开发者的风险,他们不仅在使用AI,还在主动“玩转”AI。企业别无选择,只能正视这一问题,否则将承担不作为的风险。
- 即将到来的AI监管催生AI合规产业
截至目前,全球范围内至少有1,800项国家政策和战略正在推进。
此外,根据对议会AI相关记录的分析,至少32个国家已经颁布了至少一项与AI相关的法律,目前至少存在148项AI相关法案。这些法案在一些先前受影响较小的领域(如生成式AI)已经产生了溢出效应。
例如,仅在美国的州和联邦法院系统中,2022年就有110起与AI相关的法律案件,是2016年的约七倍。这些案件大多发生在加利福尼亚州、纽约州和伊利诺伊州,涉及民事、知识产权和合同法相关问题。
这些趋势意味着:
• 以前主要在实验室和办公室内讨论的负责任AI问题,已经决定性地进入了董事会和法庭。
• 这是一个积极的变化。
随着AI快速成为消费技术,其背后的原则变得足够简单,可以被广泛理解,是时候打破“只有科技公司能理解它”的神话,拥抱更广泛的监管了。
然而,这也意味着全球的公司需要为遵守新法律、法规或至少内部政策而改变。而这绝非易事。
为了填补这一空白,毫无疑问,将会出现一个完整的行业来协助企业。这一行业的驱动力将混合高尚的原则与更加世俗的利益,如利润和声望。
- 对AI的新思考方式和新商业模式
最后,一些理念经得起时间的考验,而如何从AI中获取真正的价值便是其中之一。那些关于AI市场规模的激动人心的“预测”,对你工作场所的实际价值意义不大。
AI市场衡量的是支出,而不是获得的价值。
正如我在2020年写的一篇关于数据科学与AI预测的文章中提到的,真正从数据科学和AI中获得价值仍是一条漫长且困难的道路。
问题的根源与AI技术本身关系不大。更具体地说,AI是一种物理技术,其演进速度取决于科学,而瓶颈通常是社会技术(如激励、心态和制度),这些只能以人类能改变的速度演进——远远慢得多。
致所有读到这里的朋友与读者,我相信我们尚未看到真正的颠覆性应用。这并非技术的失败,而是想象力和激励机制的缺乏。
我们能训练的最重要的模型是心智模型,而我们能部署的最重要的模型是商业模型。
标签:十大,人工智能,模型,生成式,代理,2025,AI,数据 From: https://www.cnblogs.com/jellyai/p/18646722