OpenAI o1真的那么强吗

时间：2024-09-18 19:54:29浏览次数：3

标签：play 模型 OpenAI 真的推理 self o1

一、Openal o1技术原理

在技术博客《Learning to Reason with LLMs》中，OpenAI 对 o1 系列语言模型做了详细的技术介绍。

OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是，o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。

也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在 OpenAI 的测试中，该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确解答了 13% 的问题，而 o1 模型正确解答了 83% 的问题。

模型的编码能力也在比赛中得到了评估，在 Codeforces 比赛中排名 89%。

OpenAI 表示，作为早期模型，它还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。

但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI 将计数器重置为 1，并将该系列模型命名为 OpenAI o1。

重点在于，OpenAI 的大规模强化学习算法，教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之，类似于强化学习的 Scaling Law。

二、一些清醒认识

DeepWisdom公司CEO吴承霖深夜发出了自己的想法：（裸推理极限）

1.self-play 可行，设计空间也不大

2.OpenAI 只做了最简单的 self-play

3.记忆模块仍然没有任何突破

4.思维模式仍然难以琢磨，很难说 o1 是好的思维模式

5.没有其他秘密，这就是现在的裸推理极限，所以 OpenAI 核心成员都去了其他公司

self-play是一种强化学习手段，可以理解为：智能体通过与自身副本或历史版本进行自我博弈而进行演化的方法。

不过，当人们实际上手o1时，巨大的落差感可能在所难免。

在OpenAI官方的演示视频中，o1已经在玩量子物理、奥赛数学了，但在实际的测评中，面对9.11和9.8哪个大的“经典老题”时，o1依然自顾自的重复着“wait,9.8 is 9.80”……。不由得让人长叹，“理想很丰满，现实很骨感”。

三、写在最后

在看到o1的命名法则时，有人调侃说，“原来GPT-5永远不会来了”。但是，由o1生成数据进行训练的下一代模型“猎户座”，终将会与人们见面，不是吗？也许，科技最有魅力的地方，也许不是当下的成果有多么惊艳。而是告诉我们：边界尚未抵达，这里仍有无限期待。

标签：play,模型,OpenAI,真的,推理,self,o1
From： https://blog.csdn.net/yzf060109/article/details/142313506

Openal o1初探
9月13日，OpenAI正式公开一系列全新AI大模型，传说的“草莓”终于上线，但是正式命名不叫“草莓”，而是o1。一、为什么叫o1为什么取名叫o1，OpenAI是这么说的：ForcomplexreasoningtasksthisisasignificantadvancementandrepresentsanewlevelofAIcapability.Giv......
P4185 [USACO18JAN] MooTube G 题解
水一篇题解。也是一道并查集的好题，涉及另一个并查集的基本应用，并查集维护连通块（我跟并查集过不去了？？？）大致题意：给你一棵树，对于每次询问求一个点所在连通块中到达该点的最小路径权值大于给定值的点个数。既然都连通块了，那我们在维护连通块的时候直接不把权值大于K的边加进去，用并查......
OpenAI以1500亿美元公司估值向投资者筹集65亿美元！安卓版谷歌Gemini Live免费上线｜AI日
文章推荐突发！OpenAI「Her」领头人离职！字节硬件与豆包联动，预推出AI耳机、眼镜等产品｜AI日报今日热点安卓版谷歌GeminiLive免费上线据科技媒体9to5Google报道，谷歌在1个月前面向Advanced订阅用户推出后，正逐步面向所有安卓用户免费开放GeminiLive。GeminiLive采用了增强型语音引擎，可......
进入大模型时代，你真的准备好了吗？
前言-PREFACE近期OpenAIo1系列模型发布，在面对复杂问题和专业领域上，有了大幅长足进步，对于博士水平的物理问题，GPT-4o只能得不及格的59.5分，而o1直接干到92.8分，虽然主要是科学、编码和数学模型专业能力方面的提升，还没达到人工智能的通用人工智能AGI和超级人工智能水平，但带来冲击......
职场人该如何学习使用AI大模型，都2024年还不会用AI办公的你真的out了！
【写在开篇：这是一篇针对非技术背景的职场人，学习和使用AI大模型的完全攻略。】非技术背景的职场人想要学习和使用AI大模型，可以遵循以下步骤：1.基础学习：首先，需要掌握人工智能的基础知识，包括但不限于机器学习、深度学习等领域。可以通过阅读《ArtificialIntelligence:AMod......
浅谈OpenAI GPT4o 的使用
OpenAI-o1的首次总结在阅读了OpenAI的出版物后，我对其本质特点进行了总结，并得出了以下结论：1.复杂问题的推理能力显著提升：OpenAI-o1在处理复杂问题时表现出色，尤其在逻辑任务方面。2.定期更新和改进：通过不断的训练，模型学会完善自己的思维过程，尝试不同的策略，并识别和......
浅谈OpenAI o1
OpenAI-o1的首次总结在阅读了OpenAI的出版物后，我对其本质特点进行了总结，并得出了以下结论：1.复杂问题的推理能力显著提升：OpenAI-o1在处理复杂问题时表现出色，尤其在逻辑任务方面。2.定期更新和改进：通过不断的训练，模型学会完善自己的思维过程，尝试不同的策略，并识别和纠......
从技术的角度看，数据中台真的过时了吗？
从技术的角度来看，数据中台并未完全过时，它仍然在企业数字化转型中发挥着重要作用，尤其是在数据治理、标准化以及初步数据整合方面。然而，随着技术的不断进步和业务需求的快速变化，数据中台的传统架构和模式在某些方面已难以满足当前的需求，这导致了“数据飞轮”这一新概念的兴起。数据中......
【洛谷 P1216】[USACO1.5] [IOI1994]数字三角形 Number Triangles 题解（动态规划）
[USACO1.5][IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。在上面的样例中，从的路径产生了最大权值。输入格式第一个行一个正整数......
某bao140请求参数的逆向
1、UA参数生成，生成的入口如图：2、继续跟调用栈，最后定位到collina.js的t()方法3、把collina的t()方法导出,放到游览器测试一下是否有能输出140#参数值,结果是能输出的4、接下这里选择了补环境，缺什么补什么5、补完环境运行测试一下6、测试一下登录功能的验证140参......

OpenAI o1真的那么强吗

一、Openal o1技术原理

二、一些清醒认识

三、写在最后

相关文章

赞助商

阅读排行