代理来了,但冬天没来。
当我们即将迈入2025年时,AI领域依然充满激动与不确定性。一方面,人们对推动巨大进展的扩展“法则”是否仍然有效产生了重大疑问。AI生态系统的关键问题在于,是否更大的模型在通过数量级增加训练和推理的计算资源后,仍能持续显著提升性能。另一方面,AI领域的进步似乎从未如此迅猛,各类基础模型提供商和初创企业推出了一系列几乎让人觉得“魔法般”的新功能与产品。
在如此多悬而未决的问题中,我想分享一些想法,迎接AI即将到来的狂野一年。我不会做出很多大胆预测(我的“水晶球”依然模糊不清),但以下是2025年开篇时我的思考方向。
- 预训练可能接近收益递减,但说“扩展终结”还为时过早
业内越来越多的声音认为,我们正在接近“扩展法则的尽头”。这种观点部分来源于GPT-5尚未发布,同时OpenAI最近的产品进步(尽管非常令人印象深刻)主要来自于其他创新。你可能已经看到,OpenAI联合创始人伊利亚·苏茨克维尔最近宣布预训练时代的结束,这无疑给这一观点添了一把火。
但“预训练的终结”、“扩展法则的终结”和“扩展的终结”可能指的是不同的事情,因此值得澄清我们具体在谈什么。2020年,贾里德·卡普兰和多位OpenAI研究人员发表的一篇里程碑式论文详细阐述了LLM(大语言模型)的扩展法则:即模型性能随着模型规模增大、训练数据增多和计算量增加而提升。2022年的著名论文《Chinchilla》进一步描述了在给定计算预算下,模型规模和数据集规模的最佳平衡。两篇论文均指出,任何一个变量的每一次增量增加所带来的提升幅度都小于之前的一次。
因此,当我们观察到收益递减时,讨论“扩展法则的终结”其实是不合适的,恰恰相反,这正是扩展法则所预测的结果。
也许这只是语义问题,可能当人们谈论“扩展法则的终结”时,真正想表达的是进一步扩展模型已不再带来实质性回报。行业专家对这一问题各有看法,也没有人能真正确定。但这里有几点值得关注:
首先,性能提升从来不仅仅依赖于扩展预训练模型。增加参数、数据和计算确实是从GPT-2到GPT-3、从GPT-3到GPT-4巨大进步的关键驱动因素,但绝不仅仅是蛮力。监督微调(SFT)和基于人类反馈的强化学习(RLHF)在使模型变得实用方面至关重要,这也是ChatGPT表现出色的核心原因。(1)新推出的o1和o3模型同样如此,其关键创新在于强迫模型在回答之前“思考”,将更大的问题分解为更小、更易管理的步骤。(2)
其次,虽然通用基础模型已经训练了大部分互联网文本(“预训练终结”阵营的关键论点之一),但生物学或化学等专业领域仍未得到充分开发。因此,通过更多领域特定的数据进行训练,仍有巨大进步潜力。至于这是否会对特定领域之外的性能产生提升,仍是个悬而未决的问题(但已有证据表明这对代码有效,例如,更多的代码训练能提升LLM的推理能力)。同样,许多人对多模态数据(尤其是视频)和合成数据抱有很高期望,认为它们能解决数据饱和问题,但专家对其实际效果意见不一。(在代码领域,合成数据显然有效;其他领域尚待验证。)
最后,即便我们确实接近预训练扩展成本过高的阶段,我们才刚刚开始探索更强推理计算对模型性能的提升潜力。o1模型已经表明,给予模型更多时间“思考”问题能产生更好的答案。通过更多计算,模型可以完成更多步骤,进一步提升获得正确答案的可能性。(3)
综合来看——我的最佳猜测是,LLM仍将通过更多参数/数据/计算获得改进,但改进曲线不会像过去那样陡峭,而人们将越来越关注预训练之后的所有环节。
- 不会有新的AI寒冬
新技术被炒作时,夸大的期望往往会导致深度失望的低谷期,因此许多人担心当前的兴奋阶段会引发新一轮AI寒冬。
我不这么认为。
当然,会有许多失败。试点项目未能转化,初创企业倒闭(包括一些已融资数千万但尚未找到PMF的公司)。在产品未能达到预期或宣传效果的领域会出现幻灭感。可能还有一些公司花费数亿美元训练模型,却未能将投资转化为具有可持续竞争优势的差异化产品的惨痛失败。
但不会有大范围的AI寒冬,质疑整个领域价值。AI今天已经在代码生成、医疗记录、翻译、客户支持以及为数以千万计的人提供生产力提升等方面带来了巨大的价值。我也相信,近年来流入AI领域的资本和人才规模将确保继续高速发展,即使预训练不再是主要驱动力。
所以,如果真的有AI寒冬,它也会像理查德·索彻最近在一档播客中提到的那样,只是加州的温和冬季,而非柏林的严寒冬天。
- 但一些高飞者将不幸坠落
过去几年,许多AI初创企业以极快的速度从零增长到数百万美元ARR(一些甚至更多),这样的速度在过去极为罕见。这种现象的背后有多个因素:
• AI产品更容易构建,展现了令人惊艳的新功能,用户和买家为之惊叹。在某些领域,AI已跨过质量门槛,释放了巨大的需求,即使产品类似,也让许多玩家能够积累势头(如写作助手)。
• ChatGPT的发布使得AI成为开门利器。每家公司都想尝试AI工具和解决方案。促使企业进行试点变得更加容易。例如,法律科技曾是技术采纳的落后领域,尽管多年来人们一直在讨论AI,但实际进展甚微。ChatGPT却将AI迅速推到每家大型律师事务所的关注焦点。根据Clio最新的法律趋势报告,律师事务所的AI采用率一年内从19%飙升至79%。
尽管如此,我担心许多快速增长的初创企业会在用户流失率攀升时触顶,试点项目未能转化成正式合作的风险尤其显著。
这一风险在以下几种情况下尤为突出:
• 易替换的点状解决方案:这些产品易于采用,但同样容易被替代。
• 附加工具:这些工具可能在短期内取得成功,但如果大型企业迅速整合类似的AI功能,长期生存将面临挑战。
• “人工介入”产品:这些产品在实现收入牵引力时可能并不真正代表产品市场契合度(PMF)。虽然起步时用人工介入是不错的策略,但最终的考验在于能否逐步去除人工介入。(4)
AI浪潮正在推动众多企业前行,但并非所有企业都能持久存活。这种现象对大型技术浪潮来说是典型的,所以并不新鲜。
- 初创企业将解决AI的“最后一公里”问题
ChatGPT问世后,许多科技从业者(包括我自己)曾问自己:如果AI以如此快的速度持续进步,那么初创企业还能做什么?OpenAI、Anthropic或Google等企业的最新LLM是否最终会接管一切?如果未来几年出现一个极其智能的AI系统,能够访问企业的全部数据,还需要专门的商业应用程序吗?
这些担忧是合理的,但根据过去两年的观察,我认为尽管(或者说也许正因为)基础模型能力的迅速提升,对AI初创企业的机会将不减反增。更强大的模型和更多用户尝试这些模型的趋势,意味着需要初创企业来解决基础模型无法单独解决的“最后一公里”问题。
以下是更强模型如何扩大初创企业机会空间的几点原因:
A)快速增长的期望值
当模型几乎无法生成连贯文本时,一个“足够好”的摘要或回复已属惊艳。然而,当GPT-4、Gemini 2等模型可以写论文、调试代码并完成更多任务时,人们的期望值大幅提高。企业希望AI解决方案可靠(无“幻觉”),准确(基于事实且与企业数据一致),并且可信(安全且可解释)。
B)集成的复杂性
企业必须将模型集成到复杂的系统中,吸收来自多种来源、不同格式的数据,结合定制化的工作流,并确保输出符合特定领域的要求。理论上,基于检索增强生成(RAG)看似简单,但实际操作中需要克服各种挑战:如何有效分块、存储和排序企业文档?如何在检索和输入数据时管理延迟?如何避免不相关或误导性的上下文?
C)智能代理系统的增加
未来毫无疑问属于能够自主完成多步骤任务的AI工具。但赋予AI如此大的权力后,确保系统的安全性和可靠性将变得更加困难和重要。
如果基础模型扩大机会面快于其覆盖“最后一公里”的速度,我们或将迎来一个AI初创企业的黄金时代。这些企业把基础能力转化为健全、适合企业使用的产品。希望这一理论能被证明是正确的
标签:训练,AI,模型,代理,初创,蛮力,企业 From: https://www.cnblogs.com/jellyai/p/18654294