首页 > 其他分享 >AI新时代揭幕 会“思考解题逻辑”的OpenAI推理大模型登场

AI新时代揭幕 会“思考解题逻辑”的OpenAI推理大模型登场

时间:2024-09-13 12:23:27浏览次数:12  
标签:AI 模型 4o 解题 OpenAI GPT o1

北京时间周五凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为1,给它一个有别于“GPT-4”系列的全新名号。

在这里插入图片描述
推理大模型的特点,就是AI会在回答之前花更多时间进行思考,就像人类思考解决问题的过程一样。以往的大模型,背后的逻辑是通过学习大量数据集中的模式,来预测单词生成的序列,严格来说并不是真正理解提问。

在这里插入图片描述
(明显能感知到的“思考”过程,来源:OpenAI)

认知将跃升至“理科博士生水准”

OpenAI曾解释过,2023年发布的GPT-4类似于高中生的智能水平,而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中关键的一步。

相较于GPT-4o等现有的大模型,OpenAI o1能够解决更加困难的推理问题,同时改善过往模型中存在的机制性缺陷。

举例而言,这个新模型能够数清楚strawberry里到底有几个“r”。

在这里插入图片描述
同时AI在解答编程问题时也会更有条理,在着手写代码前,把整个回答的流程全部思考完一遍,再动手输出代码。

在这里插入图片描述
例如在预设条件的写诗任务(例如第二句的最后一个单词需要以i收尾)中,“拿起笔就写”的GPT-4o的确给出了回答,但往往只会满足了一部分条件,同时不会自我纠正。这意味着AI必须在第一次生成时就能碰上正确的答案,否则就一定会出错。但在o1模型中,AI会不断试错并打磨答案,从而显著提高生成结果的准确率和质量。

在这里插入图片描述
有趣的是,点开AI思考的过程,还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认,这里展示的并不是原始的思维链,而是“模型生成的摘要”,公司也坦率承认这里有保持“竞争优势”的因素。

在这里插入图片描述
OpenAI的研究负责人Jerry Tworek透露,o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式,而o1的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题,就像人类习得拆解、分析问题的方式一样。

根据测试,o1模型在国际数学奥林匹克的资格考试中,能够拿到83%的分数,而GPT-4o只能正确解决13%的问题。而在编程能力比赛Codeforces中,o1模型拿到89%百分位的成绩,而GPT-4o只有11%。

在这里插入图片描述
OpenAI表示,根据测试,在下一个更新的版本中,AI在物理、化学和生物学的挑战性基准测试中,表现能够与博士生水平类似。

该讲讲缺点和局限性了

不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。

首先,OpenAI o1模型(至少目前)还不是多模态大模型,同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面,GPT-4o依然是更胜一筹的选择。当然,OpenAI明确表示未来会给这个模型增加联网、文件和图像上传等功能。

另一个问题则是贵,而且是非常贵。o1-预览模型的定价是每百万个输入tokens 15美元,每百万个输出tokens 则要60美元,分别是GPT-4o的3倍和4倍。一百万tokens大致相当于75万个英文单词。

在这里插入图片描述
除了OpenAI o1-预览版外,OpenAI也同步推出了o1-mini模型。后者是一个更快、更便宜的模型,定价也会便宜80%,适用于需要推理但不需要广泛世界知识的场景。

在这里插入图片描述
而且从OpenAI“抠抠索索”的举动来看,这个推理模型恐怕非常消耗算力。公司宣布,从9月12日起,ChatGPT订阅用户可以访问这两个新模型,但目前o1-preview每周消息数量限制为30条,o1-mini则为50条。

企业版ChatGPT和教育用户可以从下周开始访问这两个模型。API使用等级达到5级的开发者可以立即开始使用这两个模型,每分钟的速率限制为20次。OpenAI未来准备向免费用户提供o1-mini模型,但目前还没有时间表。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

标签:AI,模型,4o,解题,OpenAI,GPT,o1
From: https://blog.csdn.net/weixin_41446370/article/details/142202635

相关文章

  • 在您的公司实施AI的隐性成本
    人工智能(AI)被广泛认为是商界变革性力量,提供了诸多优势,如提高效率、增强创新能力和通过数据分析获取宝贵见解。然而,除了这些好处之外,还有许多公司在实施过程中可能忽视的重要隐性成本。识别和规划这些隐性支出对于成功将AI纳入运营的组织至关重要。本文深入探讨了每家公司都应该......
  • 一分钟在线编译定制专属固件: openwrt.ai
    https://github.com/kiddin9/Kwrt?tab=readme-ov-file  KwrtPublic Watch96Fork 3k Star 7.4k kiddin9/Kwrt   master1 Branch0 TagstAddfileAddfile CodeFoldersandfilesName  ......
  • Go runtime 调度器精讲(三):main goroutine 创建
    原创文章,欢迎转载,转载请注明出处,谢谢。0.前言回顾下上一讲的内容。主线程m0蓄势待发,准备干活。g0为m0提供了执行环境,P和m0绑定,为m0提供活,也就是goroutine。那么问题来了,活呢?哪里有活给m0干?这一讲我们将介绍m0执行的第一个活,也就是maingoroutine。maingou......
  • 智能监控技术揭秘:思通数科AI系统值班行为分析
    思通数科的AI视频识别预警系统是一个集成了先进人工智能技术的监控解决方案,旨在通过实时视频分析提高安全监控的效率和准确性。该系统利用深度学习算法,能够识别和分析视频中的各种行为模式,从而实现对特定事件的快速响应。AI技术在值班离岗、脱岗等行为监控方面的主要实际应用场......
  • (不用互三)AI绘画:科技赋能艺术的崭新时代
    ......
  • AI绘画:24最新ComfyUI文生图食用指南,学不会你来找我!
    前言ComfyUI作为一款基于StableDiffusion的节点式操作界面,为用户提供了一个更加灵活和高效的文生图(文本生成图像)创作环境。本篇博客将详细介绍如何使用ComfyUI进行文生图操作,无论你是初学者还是有一定基础的用户,都能够通过本指南快速上手。书接上文,香型大家已经完成了Sta......
  • Google 发布 DataGemma 技术减少 AI 生成错误信息 (即幻觉)
    Google推出了DataGemma,这是基于真实世界数据的两个新Gemma模型版本,旨在减少AI生成中的“幻觉”问题。DataGemma通过利用GoogleDataCommons中超过2400亿个来自可信来源的统计数据,显著提高了模型在处理数值和统计数据时的准确性。DataGemma采用了两种关键技术:检索......
  • OpenAI 推出专门用于解决复杂问题的模型 OpenAI o1
    2024年9月12日(当地时间),北京时间9月13日凌晨,OpenAI推出了OpenAIo1,这是一系列致力于解决复杂问题的新型AI模型。据说,这些模型在科学、编码和数学等领域的表现比以前的模型更好。本文将详细介绍OpenAIo1的功能、价格和使用方法。OpenAIo1是什么?OpenAIo......
  • 40天猛涨20万粉!用这个AI神器做英语赛道赢麻了!居然完全免费可商用!
    家人们,如果下半年你还在迷茫要冲什么赛道的话,俺的建议你可以搞育儿英语赛道!因为下半年英语教改,将会带来了至少2-3年的红利期。教改之后英语教材难度会比之前要大,很多家长会担心孩子消化不了那里面的内容,他们就会去外面买教辅课程或者请外教。帮助孩子能在日常提升英语口语......
  • OpenAI使用AI编程给出了数数问题的解决方案 —— 如何解决ChatGPT不会数数的问题
    总所周知的一个问题,那就是ChatGPT不会数数,不过今天突然发现OpenAI给出了一个神奇的解决方法,那就是AI编程。问题案例如下:Thetextprovidedwillbeanalyzedtocalculatethewordcount.text="""Therehasbeenrapidlygrowinginterestinmeta-learningasamet......