首页 > 其他分享 >AI跟踪报道第56期-新加坡内哥谈技术-本周AI新闻: 划时代 Open AI 新模型系统2思维推理质变

AI跟踪报道第56期-新加坡内哥谈技术-本周AI新闻: 划时代 Open AI 新模型系统2思维推理质变

时间:2024-09-14 13:49:11浏览次数:3  
标签:范式 AI 模型 56 OpenAI 跟踪报道 推理 o1

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

点击下面视频观看在B站本周AI更新:

B 站 链接 观看:

本周AI新闻: 划时代Open AI 新模型系统2思维推理质变_哔哩哔哩_bilibili想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅: https://rengongzhineng.io/1)https://huggingface.co/collections/google/datagemma-relea, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者 内哥谈技术, 作者简介 N哥,新加坡。订阅中文简报,成为AI领域的领跑者。https://rengongzhineng.io/,相关视频:深夜炸弹!OpenAI发布o1模型,AI第一次像人类一样思考…,【中英+笔记】对话《人类简史》作者尤瓦尔·赫拉利:人工智能将在2034年控制你|2024.09.05,本周AI新闻:一封前OpenAI研发人员关于AGI的公开信,【中英精校】英伟达CEO黄仁勋最新高盛大会访谈 2024.9.12,本周AI新闻: 熟悉的铛铛铛铛音乐响起的时候,Intel还Inside吗?,Open AI发布o1模型最新使用教程,国内无限制版!o1模型免费使用,免登录,直接使用!完整解读模型特点,推理能力已超博士!,OpenAI o1大模型深度详解!|OpenAI推理大模型重磅发布,AGI重要里程碑o1模型详解!,本周AI新闻:阿尔茨海默病和艾滋病进展和AI制药巨大前景,突发!OpenAI震撼发布最强模型o1!推理能力超人类博士??,【全749集】比付费还强10倍的自学Python全套教程,2024最新版,全程通俗易懂,别再走弯路了,小白看完速通Python全栈!icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1dStPeAEjj/

想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅: https://rengongzhineng.io/

1)https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

2) https://huggingface.co/mistral-community/pixtral-12b-240910

3) https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

4) https://www.deepseek.com/

5) https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities

如果从OpenAI的新o1模型系列中得到一个重要启示的话——允许我在这里表现一下热情——那就是一个新的范式正在诞生。一个关于推理的新范式,一个关于扩展的新范式,一个关于AI的新范式。

ChatGPT和GPT-4将继续存在,但它们再也不会是OpenAI的“宠儿”。我们正在进入一个新的阶段,一个新的时代。公司的资源和努力将主要集中在探索、扩展和成熟这个新的范式上,这个范式更像是一个GPT-3时刻(“等等,AI怎么能做到这些?”),而不是ChatGPT时刻(“所有人都受邀参加派对!”)。

为了全面解读这个转变,我们需要很多答案:

  1. 推理型AI对生成式AI意味着什么(它还是生成式的吗)?
  2. 用户将如何与能够“思考”的AI模型建立关系并互动?
  3. 如果允许推理模型思考数小时、数天甚至数周,它们可以做什么?
  4. 推理模型的性能将如何随着计算能力的增加而扩展?
  5. 公司将如何在训练-推理管道中分配计算资源?
  6. 所有这些对AI的最终目标意味着什么?
  7. 这与GPT-5有什么关系(如果有的话)?

但我们不要操之过急,这些都是困难的问题,也是有趣的问题。首先,我想回顾一下OpenAI的公告:o1-preview和o1-mini。我将为你总结这些新内容,它们的技能、基准表现,以及我收集到的许多正面和负面示例。(这些模型在ChatGPT网站上对所有Plus和Team用户开放,o1-preview每周限制30条消息,o1-mini限制50条消息,所以快去使用吧。记住:保持提示简单。)

然后,我会探讨这个新范式的含义以及我认为即将发生的事情。我将用我的想法和评论来点缀整个讨论,既支持也反对OpenAI对这个新范式的叙述。

这是篇很长的文章,但它涵盖了未来几年将会产生巨大影响的许多事情(提前道歉,我有很多脚注,但那是你会找到“真知灼见”的地方,我把它们从正文中剥离出来,免得有些人不在乎细节)。

OpenAI o1模型系列 vs GPT

理解新事物的最好方法是将它与现有的最接近的相对物进行比较。对于o1来说,这个相对物就是GPT。o1与GPT的不同之处可以通过这个图表最好地展示出来:

首先,模型通过从互联网上的大量数据中进行训练(预训练)。然后,它经过微调以对齐行为、提高性能(后训练)。最后,用户使用它进行推理,如在网站上向ChatGPT提问(推理)。

在o1之前,大多数计算资源都用于让模型吞噬大量数据(“越大越好”的范式)。GPT-2有15亿参数,GPT-3有1750亿参数,而GPT-4有1.76万亿参数。在四年内增长了三个数量级。GPT-4需要更多的计算资源,因为它更大,这也使它“更聪明”。然而,AI公司逐渐意识到,他们还需要在后训练上投入更多资源,以改善模型的行为。

推理(Inference)是一个完全不同的层面。首先,2亿人每周都在使用你的AI模型,这成本很高。你只需训练一次模型,但用户会数百万甚至数十亿次地使用它。其次,在技术上存在一些难题,它之前无法让模型根据查询的复杂程度动态分配计算资源。ChatGPT无论是回答“2加2等于几”还是“解决黎曼假设”,所用的计算资源几乎是一样的。(当然,它在后者上会失败,甚至在前者上也可能出错)。换句话说,无论问题多么复杂,聊天机器人都会立即开始回答。回答得越快越好。

但人类并不是这样工作的,所以研究人员意识到,他们需要找到一种方法,让模型在推理阶段能够分配更多资源去“思考”复杂的查询。这就是o1模型所做的事情。通过一种强化学习机制(稍后会详细说明),它学会了推理,能够花费更多资源去为需要这种方式的问题提供慢而深思熟虑的答案。这也是人类的思考方式——对于简单的问题,我们反应迅速;对于复杂的问题,我们花费更多时间。

尽管这并非完美的类比,但说这些新一代的模型能够像人类一样实时推理,并非完全不合理。

这就是为什么OpenAI称这个新阶段为“推理范式”,而之前的阶段则被称为“预训练范式”。(我不确定这些标签会不会被长期使用,但目前我会遵循它们)。

o1的基准性能表现

为了连接o1的表现与上面的讨论,我将分享OpenAI在评估博客中给出的最重要的图表:

左边的图表显示了在训练时性能随着计算资源增加而提升的情况。可以看到,随着计算资源的增多,性能呈线性增长。这代表了旧的“预训练范式”:你训练得越多,模型表现越好。

右边的图表显示了推理阶段性能随着计算资源增加而提升的情况。令人震惊的是,这里的性能提升幅度与左图中的相似,甚至更大。这表明,给模型更多计算资源用于推理,它的表现会显著提升。

简而言之,通过增加数据量来提高训练时的性能可以在推理阶段通过给模型更多时间思考来换取相似的提升。不仅如此,推理阶段通过增加计算资源来提升性能的效果,甚至比训练时增加计算资源的效果还要显著。这意味着新范式让AI模型能够解决更复杂的问题,而且它们不需要再变大来变得更“聪明”——你只需给它们更多时间思考就足够了。

我们可以在将新模型与GPT-4o进行对比时清楚看到这一点。例如,o1(正式版尚未发布)和o1-preview在一些基准测试上的表现都优于GPT-4o,尤其是在推理能力较强的小型模型(如o1-mini)上,表现尤为突出。

o1模型的实际应用表现

OpenAI分享了一些在数学竞赛、编程竞赛和科学问题上的表现数据。比如,o1在美国数学邀请赛(AIME)中的排名接近全美前500名,在编程竞赛Codeforces中处于89%的得分率,还在物理、化学和生物等领域超过了人类博士级别的准确率。

这些结果都非常令人印象深刻。无论是数学、编程,还是科学领域,o1在所有这些基准测试中都大幅领先于GPT-4o及其他现有的大型语言模型。

不仅如此,一些研究人员和测试者也对o1-preview给出了正面评价。例如,研究员Colin Fraser(以对AI公司持怀疑态度而闻名)表示,他对o1-preview比预期更为满意;教授Ethan Mollick帮助o1-preview解决了一个难题,表明它在解决复杂问题上表现出色。

尽管如此,o1-preview并不是完美的模型。正如OpenAI CEO Sam Altman指出的那样,o1仍然存在许多局限性,特别是在一些简单任务上可能会犯错,比如回答草莓中有几个字母“R”这种问题时,它并非每次都能答对。

o1的推理机制

那么,o1到底是如何进行推理的呢?OpenAI解决了两个技术挑战:

  1. 在推理阶段使用更多计算资源来解决复杂问题。这是通过增强推理能力来实现的,模型可以在回答复杂问题时花费更多时间和资源进行思考。
  2. o1通过强化学习机制在训练阶段学会了如何进行推理。它在训练过程中学习如何“反思”自己的思维过程,并在回答问题时利用这一能力进行自我纠正。

换句话说,o1模型结合了OpenAI的GPT模型的语言能力和DeepMind的AlphaGo系列中的强化学习机制,形成了一种全新的AI推理范式。这种推理能力是通过链式思维(Chain of Thought)来实现的,模型可以逐步解决问题,分解复杂步骤,并在犯错时进行自我纠正。

尽管我们目前对o1的具体实现细节还知之甚少,但可以肯定的是,OpenAI已经开启了一个新的AI推理时代。

总结

o1系列模型标志着AI领域进入了推理范式的新时代。通过强化学习和链式思维机制,o1能够在推理阶段花费更多时间和计算资源来解决复杂问题,并显著提升了模型的性能。虽然它在某些简单任务上仍然存在瑕疵,但总体而言,它在数学、科学和编程等领域的表现令人瞩目,并为AI的未来发展打开了新的大门。

随着OpenAI继续完善这一新范式,未来的AI模型将在解决复杂问题、进行深度推理方面有更多的潜力。虽然这一新技术目前还处于预览阶段,但其未来发展值得期待。

标签:范式,AI,模型,56,OpenAI,跟踪报道,推理,o1
From: https://blog.csdn.net/2301_79342058/article/details/142256280

相关文章

  • 多用户AI雷达名片平台版小程序源码系统 附带完整的安装代码包以及搭建部署教程
    系统概述多用户AI雷达名片平台版小程序源码系统是一款基于微信小程序生态开发的创新产品,它巧妙地将人工智能技术与传统商务名片相结合,打造了一个集名片交换、智能识别、数据分析、社交互动等功能于一体的综合性平台。该系统支持多用户同时在线,每个用户都能拥有自己独特的AI雷......
  • Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型问世,模拟人类思考问题 丨 RTE 开发者日报
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个......
  • 智能工厂的设计软件 之 0之 Ⅰ AI模型:追求普智(普适智慧)的 现实模型
    写在讨论前面本期主题”智能工厂的设计软件”即 “程序”--“程序”做为”智能工厂的设计软件”的目的。前面的文章将这一主题称为“智能工厂的程序设计”是相对狭义一些的表述。1、文题中的数字(" 0 之 Ⅰ") 0:  “AI模型”的 “程序”性能层级  Layer-0( ......
  • 人工智能【AI】:未来的驱动力
    在21世纪,人工智能(AI)已经成为推动技术进步和创新的关键力量。AI不仅仅是科幻小说中的概念,它已经渗透到我们日常生活的方方面面,从智能手机的语音助手到复杂的医疗诊断系统,AI的应用无处不在。人工智能(AI)是当今世界最激动人心的技术之一,它正在以前所未有的速度和规模改变我们的生......
  • 洛谷题单指南-分治与倍增-P7167 [eJOI2020 Day1] Fountain
    原题链接:https://www.luogu.com.cn/problem/P7167题意解读:从喷泉任意一个圆盘倒水,水流经的圆盘直径必须递增,水最后流到哪个圆盘。解题思路:1、枚举法有30%的数据范围在N<=1000,Q<=1000,因此枚举也可以得到30分。可以通过单调栈预计算每个圆盘后面第一个直径更大的圆盘位置Next[......
  • 2024想转行做大模型?AI产品经理们,先看看这份指南
    如果你想转行做大模型,作为一名AI产品经理,你可以怎么做呢?或许,你可以先进行自我检测,看看自己是否真的适合转行做大模型。这篇文章里,作者便给想转行做大模型的AI产品经理们提出了一些建议,不妨来看看吧。作为一个产品经理,你可能已经熟悉了一些常见的AI技术和应用,比如机器学......
  • 又一个爆火的AI项目,逼真到恐怖的Flux!【保姆级硬核教程】
    前言最近Flux爆火,人物写真更加逼真、细腻,这些图片你能看出来是AI生成的吗?甚至还能精准控制生成的文字,比如在手上和纸上写:Iamnotreal.无论是单人还是多人,脸部打光、肌肤纹理、毛发,都很难看出破绽。而这样的逼真图片,使用Flux就可以轻松生成:所有的AI设计工......
  • P10471 最大异或对 The XOR Largest Pair(01trie)
    #include<bits/stdc++.h>usingnamespacestd;#definexfirst#defineysecondtypedefpair<int,int>PII;typedeflonglongll;typedefunsignedlonglongull;typedefunsignedintuint;typedefvector<string>VS;typedefvector<int>......
  • 程序员的 AI 启蒙:ChatGPT+ Copilot开发Vue3 仿简书项目 90%代码AI生成
    在人工智能技术日益成熟的今天,程序员们正在迎来一场全新的编程革命。ChatGPT和Copilot等AI工具的出现,让代码生成不再是遥不可及的梦想。本文将带你体验如何利用这些先进技术,仅用90%的代码量,开发出一个基于Vue3的仿简书项目,感受AI在编程领域的革新力量。一、引言ChatGPT和C......
  • 甲骨文计划建设核动力数据中心,支撑其构建全球最强 AI 超算
    9月14日消息,据TheMotleyFool记录的财报电话会议,甲骨文联合创始人兼董事长拉里·埃里森(LarryEllison)透露,为应对先进AI模型对能源日益增长的需求,甲骨文正计划建设一座由三座小型模块化核反应堆供电的数据中心。建设核动力数据中心,目标直指AI能源需求埃里森表示,甲骨文拟议的......