Openal o1初探

时间：2024-09-18 19:53:55浏览次数：14

9 月 13 日，OpenAI 正式公开一系列全新 AI 大模型，传说的“草莓”终于上线，但是正式命名不叫“草莓”，而是o1。

一、为什么叫o1

为什么取名叫o1，OpenAI是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来就是：

对于复杂的推理任务，这是一项重大进步，代表了 AI 能力的新水平。鉴于此，我们将计数器重置回 1 并将此系列命名为 OpenAI o1。

这次OpenAI的全新AI大模型，不再延续以往的命名规范，直接取名为o1，这意味着这才是一个新的起点，也代表了目前的最高水平。

官方名称：OpenAI o1，不是GPT-o1，为什么？

因为o1跟GPT-4o的目标和技术路线不同。

① 4o 是不同模态的大一统, 对于模型智力水平帮助不大; 4o 做不了复杂任务, 指望图片、视频数据大幅提升智力水平不太可能, 4o 弥补的是大模型对多模态世界的感知能力, 而不是认知能力, 后者还是需要LLM文本模型
② o1 探索AGI还能走多远; 认知提升的核心在于复杂逻辑推理, 能力越强, 解锁复杂应用场景越多, 大模型天花板越高, 提升文本模型的逻辑推理能力是最重要的事情, 没有之一

二、有什么不同

“慢思考、强逻辑”的能力，为什么这么说呢？

看两组数据：

AIME 2024 数学竞赛中，o1 的预览版达到了 56.7% 的准确率，而正式版更是高达 83.3%。代码竞赛上，o1 的表现也极为抢眼，从 11% 的 GPT-4o 提升到 89%。

新模型在复杂推理或数学计算等方面的能力，可以说是被打通了任督二脉。

设想下，如果有人问你：

简单问题: 意大利首都是哪儿? 你会立即回答罗马
复杂问题: 帮我写个商业计划书/小说… 你会停顿片刻，不断自我反思, 思考时间越久, 结果往往越好

这个例子解释了推理的作用，将思考时间转化为更好结果的能力。

其中的一脉是“慢思考”，o1模型在回答问题之前会进行深思熟虑，这个过程可能需要额外的时间，但它能够生成一个内部的长思维链，尝试不同的策略，并识别自身的错误。

另外的一脉是“强逻辑”，o1模型在逻辑推理任务上表现出色，能够处理复杂的科学、数学和编程问题。例如，在国际数学奥林匹克（IMO）的资格考试中，o1模型的正确率高达83%，而之前的GPT-4o模型正确率为13%。

在chatgpt之前的模型中，是不擅长复杂推理的，在简单任务上时表现不错，但一旦遇到多步骤的复杂问题，或者需要更多推理和思考的场景时，模型的表现就开始下滑，而o1在推理上开始解决这个问题。

三、核心是什么

OpenAI的o1模型训练方法的核心原理是一项名为名为自我对弈强化学习（Self-play Reinforcement Learning，简称RL）的训练方法。

这种方法通过模拟环境和自我对抗来提升模型性能，模型在没有外部指导的情况下，通过不断尝试和错误来学习策略和优化决策。这就像是模型在和自己下棋，一边玩一边学，过程中不用别人教，自己尝试、出错、再试，慢慢学会怎样做决策和解决问题。

比如AlphaGo和AlphaZero，使用的就是这种方法。

o1模型系列包括o1-preview和o1-mini两个版本，其中o1-preview注重深度思考与科学推理，而o1-mini则更经济高效，适合STEM领域，尤其是数学和编码任务。

标签：4o,模型,复杂,Openal,OpenAI,初探,推理,o1
From： https://blog.csdn.net/yzf060109/article/details/142313362

初探IT世界：从基础到未来
初探IT世界：从基础到未来1.引言随着科技的不断发展，IT（信息技术）已经成为全球经济的支柱之一。从软件开发、网络安全到数据分析和人工智能，IT领域为我们的日常生活提供了许多不可或缺的技术服务。无论你是初学者，还是想提升自己的技术能力，了解IT行业的基础和前景都是非常有益......
P4185 [USACO18JAN] MooTube G 题解
水一篇题解。也是一道并查集的好题，涉及另一个并查集的基本应用，并查集维护连通块（我跟并查集过不去了？？？）大致题意：给你一棵树，对于每次询问求一个点所在连通块中到达该点的最小路径权值大于给定值的点个数。既然都连通块了，那我们在维护连通块的时候直接不把权值大于K的边加进去，用并查......
浅谈OpenAI o1
OpenAI-o1的首次总结在阅读了OpenAI的出版物后，我对其本质特点进行了总结，并得出了以下结论：1.复杂问题的推理能力显著提升：OpenAI-o1在处理复杂问题时表现出色，尤其在逻辑任务方面。2.定期更新和改进：通过不断的训练，模型学会完善自己的思维过程，尝试不同的策略，并识别和纠......
【洛谷 P1216】[USACO1.5] [IOI1994]数字三角形 Number Triangles 题解（动态规划）
[USACO1.5][IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。在上面的样例中，从的路径产生了最大权值。输入格式第一个行一个正整数......
某bao140请求参数的逆向
1、UA参数生成，生成的入口如图：2、继续跟调用栈，最后定位到collina.js的t()方法3、把collina的t()方法导出,放到游览器测试一下是否有能输出140#参数值,结果是能输出的4、接下这里选择了补环境，缺什么补什么5、补完环境运行测试一下6、测试一下登录功能的验证140参......
题解：P3113 [USACO14DEC] Marathon G
用线段树维护子路径的长度和这条子路径上删除一个点能够减少的最大距离。那么，修改就修改线段树上对应位置的值，查询就求这一段子路径的距离和子路径上删除一个点能够减少的最大距离，两者相减即可得到答案。代码：#include<bits/stdc++.h>usingnamespacestd;typedefpair<int,in......
初探九型人格：掌握不同类型的人格特质
九型人格的不同类型2号人格—给予者：争取得到他人支持，避免被他人反对。对自己的重要性感到骄傲。“他们没有我不行”。1号人格—完美主义者：内心的正确标准变成严格的自我要求。不断产生自责的思想。有一种强迫性需要，只接受正确的事情。7号人格—享乐主义者：需要保持高度......
逆向工程 O1模型架构
深入解析o1架构：借助Claude的逆向工程这张图展示了o1的模型架构的高层次设计，通过逆向工程和Claude的帮助，对其进行了详细分析。1、数据生成（DataGeneration）数据生成模块负责创建用于训练的数据，包括：-合成数据生成器（SyntheticDataGenerator）-人类专家（HumanExperts）-CoT数据库......
P3067 [USACO12OPEN] Balanced Cow Subsets G
我的天，折半搜索（meetinthemiddle），依稀记得我学过，但是真的不记得。。。。从状态图上起点和终点同时开始进行宽度/深度优先搜索，如果发现相遇了，那么可以认为是获得了可行解。这道题，每一个元素会有3种状态，分别是在第一个集合或者第二个集合亦或者不在集合中。如果直接暴力去搜的......
【洛谷 P1596】[USACO10OCT] Lake Counting S 题解（深度优先搜索）
[USACO10OCT]LakeCountingS题面翻译由于近期的降雨，雨水汇集在农民约翰的田地不同的地方。我们用一个的网格图表示。每个网格中有水（W）或是旱地（.）。一个网格与其周围的八个网格相连，而一组相连的网格视为一个水坑。约翰想弄清楚他的田地已经形成了多少水坑。给出约翰田地的示意图，......

Openal o1初探

一、为什么叫o1

二、有什么不同

三、核心是什么

相关文章

赞助商

阅读排行