每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
点击下面视频观看在B站本周AI更新:
B 站 链接 观看:
想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅: https://rengongzhineng.io/
1)https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
2) https://huggingface.co/mistral-community/pixtral-12b-240910
3) https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
4) https://www.deepseek.com/
5) https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities
如果从OpenAI的新o1模型系列中得到一个重要启示的话——允许我在这里表现一下热情——那就是一个新的范式正在诞生。一个关于推理的新范式,一个关于扩展的新范式,一个关于AI的新范式。
ChatGPT和GPT-4将继续存在,但它们再也不会是OpenAI的“宠儿”。我们正在进入一个新的阶段,一个新的时代。公司的资源和努力将主要集中在探索、扩展和成熟这个新的范式上,这个范式更像是一个GPT-3时刻(“等等,AI怎么能做到这些?”),而不是ChatGPT时刻(“所有人都受邀参加派对!”)。
为了全面解读这个转变,我们需要很多答案:
- 推理型AI对生成式AI意味着什么(它还是生成式的吗)?
- 用户将如何与能够“思考”的AI模型建立关系并互动?
- 如果允许推理模型思考数小时、数天甚至数周,它们可以做什么?
- 推理模型的性能将如何随着计算能力的增加而扩展?
- 公司将如何在训练-推理管道中分配计算资源?
- 所有这些对AI的最终目标意味着什么?
- 这与GPT-5有什么关系(如果有的话)?
但我们不要操之过急,这些都是困难的问题,也是有趣的问题。首先,我想回顾一下OpenAI的公告:o1-preview和o1-mini。我将为你总结这些新内容,它们的技能、基准表现,以及我收集到的许多正面和负面示例。(这些模型在ChatGPT网站上对所有Plus和Team用户开放,o1-preview每周限制30条消息,o1-mini限制50条消息,所以快去使用吧。记住:保持提示简单。)
然后,我会探讨这个新范式的含义以及我认为即将发生的事情。我将用我的想法和评论来点缀整个讨论,既支持也反对OpenAI对这个新范式的叙述。
这是篇很长的文章,但它涵盖了未来几年将会产生巨大影响的许多事情(提前道歉,我有很多脚注,但那是你会找到“真知灼见”的地方,我把它们从正文中剥离出来,免得有些人不在乎细节)。
OpenAI o1模型系列 vs GPT
理解新事物的最好方法是将它与现有的最接近的相对物进行比较。对于o1来说,这个相对物就是GPT。o1与GPT的不同之处可以通过这个图表最好地展示出来:
首先,模型通过从互联网上的大量数据中进行训练(预训练)。然后,它经过微调以对齐行为、提高性能(后训练)。最后,用户使用它进行推理,如在网站上向ChatGPT提问(推理)。
在o1之前,大多数计算资源都用于让模型吞噬大量数据(“越大越好”的范式)。GPT-2有15亿参数,GPT-3有1750亿参数,而GPT-4有1.76万亿参数。在四年内增长了三个数量级。GPT-4需要更多的计算资源,因为它更大,这也使它“更聪明”。然而,AI公司逐渐意识到,他们还需要在后训练上投入更多资源,以改善模型的行为。
推理(Inference)是一个完全不同的层面。首先,2亿人每周都在使用你的AI模型,这成本很高。你只需训练一次模型,但用户会数百万甚至数十亿次地使用它。其次,在技术上存在一些难题,它之前无法让模型根据查询的复杂程度动态分配计算资源。ChatGPT无论是回答“2加2等于几”还是“解决黎曼假设”,所用的计算资源几乎是一样的。(当然,它在后者上会失败,甚至在前者上也可能出错)。换句话说,无论问题多么复杂,聊天机器人都会立即开始回答。回答得越快越好。
但人类并不是这样工作的,所以研究人员意识到,他们需要找到一种方法,让模型在推理阶段能够分配更多资源去“思考”复杂的查询。这就是o1模型所做的事情。通过一种强化学习机制(稍后会详细说明),它学会了推理,能够花费更多资源去为需要这种方式的问题提供慢而深思熟虑的答案。这也是人类的思考方式——对于简单的问题,我们反应迅速;对于复杂的问题,我们花费更多时间。
尽管这并非完美的类比,但说这些新一代的模型能够像人类一样实时推理,并非完全不合理。
这就是为什么OpenAI称这个新阶段为“推理范式”,而之前的阶段则被称为“预训练范式”。(我不确定这些标签会不会被长期使用,但目前我会遵循它们)。
o1的基准性能表现
为了连接o1的表现与上面的讨论,我将分享OpenAI在评估博客中给出的最重要的图表:
左边的图表显示了在训练时性能随着计算资源增加而提升的情况。可以看到,随着计算资源的增多,性能呈线性增长。这代表了旧的“预训练范式”:你训练得越多,模型表现越好。
右边的图表显示了推理阶段性能随着计算资源增加而提升的情况。令人震惊的是,这里的性能提升幅度与左图中的相似,甚至更大。这表明,给模型更多计算资源用于推理,它的表现会显著提升。
简而言之,通过增加数据量来提高训练时的性能可以在推理阶段通过给模型更多时间思考来换取相似的提升。不仅如此,推理阶段通过增加计算资源来提升性能的效果,甚至比训练时增加计算资源的效果还要显著。这意味着新范式让AI模型能够解决更复杂的问题,而且它们不需要再变大来变得更“聪明”——你只需给它们更多时间思考就足够了。
我们可以在将新模型与GPT-4o进行对比时清楚看到这一点。例如,o1(正式版尚未发布)和o1-preview在一些基准测试上的表现都优于GPT-4o,尤其是在推理能力较强的小型模型(如o1-mini)上,表现尤为突出。
o1模型的实际应用表现
OpenAI分享了一些在数学竞赛、编程竞赛和科学问题上的表现数据。比如,o1在美国数学邀请赛(AIME)中的排名接近全美前500名,在编程竞赛Codeforces中处于89%的得分率,还在物理、化学和生物等领域超过了人类博士级别的准确率。
这些结果都非常令人印象深刻。无论是数学、编程,还是科学领域,o1在所有这些基准测试中都大幅领先于GPT-4o及其他现有的大型语言模型。
不仅如此,一些研究人员和测试者也对o1-preview给出了正面评价。例如,研究员Colin Fraser(以对AI公司持怀疑态度而闻名)表示,他对o1-preview比预期更为满意;教授Ethan Mollick帮助o1-preview解决了一个难题,表明它在解决复杂问题上表现出色。
尽管如此,o1-preview并不是完美的模型。正如OpenAI CEO Sam Altman指出的那样,o1仍然存在许多局限性,特别是在一些简单任务上可能会犯错,比如回答草莓中有几个字母“R”这种问题时,它并非每次都能答对。
o1的推理机制
那么,o1到底是如何进行推理的呢?OpenAI解决了两个技术挑战:
- 在推理阶段使用更多计算资源来解决复杂问题。这是通过增强推理能力来实现的,模型可以在回答复杂问题时花费更多时间和资源进行思考。
- o1通过强化学习机制在训练阶段学会了如何进行推理。它在训练过程中学习如何“反思”自己的思维过程,并在回答问题时利用这一能力进行自我纠正。
换句话说,o1模型结合了OpenAI的GPT模型的语言能力和DeepMind的AlphaGo系列中的强化学习机制,形成了一种全新的AI推理范式。这种推理能力是通过链式思维(Chain of Thought)来实现的,模型可以逐步解决问题,分解复杂步骤,并在犯错时进行自我纠正。
尽管我们目前对o1的具体实现细节还知之甚少,但可以肯定的是,OpenAI已经开启了一个新的AI推理时代。
总结
o1系列模型标志着AI领域进入了推理范式的新时代。通过强化学习和链式思维机制,o1能够在推理阶段花费更多时间和计算资源来解决复杂问题,并显著提升了模型的性能。虽然它在某些简单任务上仍然存在瑕疵,但总体而言,它在数学、科学和编程等领域的表现令人瞩目,并为AI的未来发展打开了新的大门。
随着OpenAI继续完善这一新范式,未来的AI模型将在解决复杂问题、进行深度推理方面有更多的潜力。虽然这一新技术目前还处于预览阶段,但其未来发展值得期待。
标签:范式,AI,模型,56,OpenAI,跟踪报道,推理,o1 From: https://blog.csdn.net/2301_79342058/article/details/142256280