首页 > 其他分享 >大模型 | 关于GPT-5 训练失败的4点思考

大模型 | 关于GPT-5 训练失败的4点思考

时间:2024-09-18 15:53:05浏览次数:12  
标签:归纳 模型 思考 GPT 硅谷 推理


一、近期硅谷VC和创始人观点

最近硅谷风险投资和 AI领 域创始人热议话题:Scaling Law 可能正在放缓。

1、 超大规模模型:AI 依然是硅谷讨论的焦点,但热度较去年有所下降,主要原因是 Scaling Law 的速度减缓(需注意训练算力需求的降低趋势)。大约在3-4周前,谷歌在训练其下一代 Gemini 模型(规模是前一代的10倍,相当于GPT-5)时遭遇了2次失败。这也为 GPT-5 的延期发布提供了解释。目前硅谷普遍认为,在大型语言模型(LLM)层面,继续扩大模型规模面临较大挑战,原因包括:

a) 采用 MOE 技术后,大模型在训练后的效果不尽如人意,未能实现收敛。
b) 数据成为制约因素,合成的数据质量远不如网络搜集的数据。

2、GPT-5 的发布延期可能性仍然存在


二、4点思考

思考一:信息量决定 GPT-4 性能

在使用 GPT-4 过程中,我注意到它在多数情况下提供的输出几乎达到了理想的水平。所谓的“完美”并非指通用人工智能(AGI)已经达成,而是在当前的系统框架下,通过对话界面加上有限的输入信息,模型能够基于这些信息给出接近理论上的最佳回复。简单来说,很多问题没有得到满意的答案,往往是因为输入的信息不够充分。

思考二:复杂推理需要 Agent 处理

尽管大模型具有强大的上下文处理能力,这对于搜索和总结任务极为有利,但在需要进行复杂推理的场景中,我们不应期待现有技术能够处理长上下文的推理问题。现有大模型更像是快速反应系统,对于涉及多步骤推理、信息对比、路径探索和经验累积等复杂任务,我们不应寄望于大模型内部能够完全实现这些功能。快速反应系统无法获得慢速思考所需的信息,因此也无法得到慢思考的结果。COT(思维链)的应用实际上是推理过程外部化的体现,而慢思考更适合通过 Agent 架构来处理。

思考三:大模型需工具辅助计算

有些问题不适合在现有大模型架构中直接解决,比如:精确的数学计算。对人类来说,简单的计算依赖于记忆,而稍微复杂的计算,即使是心算,也涉及逻辑推理和记忆过程。比如:计算58+34时,心算其实是一种慢思考的推理过程。因此,大型模型借助工具进行计算是一个合理的做法。

思考四:智慧不仅是信息压缩

虽然“压缩即智能”,但人类最顶尖的智慧,比如:物理理论,并非单纯通过压缩信息得来。压缩是一种归纳方法,例如,让大模型归纳各种物体自由落体的视频,可能会得出轻物体下落慢、重物体下落快的结论,或者归纳出不同物质的下落模型。然而,仅凭归纳是无法推导出重力加速度或空气阻力等科学原理的。尽管压缩可以体现智能,但最高级的智能来自于推理、假设和实验的过程。


标签:归纳,模型,思考,GPT,硅谷,推理
From: https://blog.51cto.com/u_16163510/12046921

相关文章

  • 大模型 | 自进化Agent:兼具反思与记忆增强能力
    大模型在动态环境中持续决策、长期记忆缺乏以及有限的上下文窗口等方面仍面临挑战:元学习、多任务学习等方法来增强LLMs的迁移能力和适应性;针对有限记忆存储的问题,MemGPT和MemoryBank采用了不同的策略管理记忆;但这些方法通常针对特定任务或场景,缺乏一个通用框架。提出了一个创新框架......
  • 大模型 | 一个全面、先进、公平且模块化的开源RAG框架
    两个关键问题限制了RAG的发展:新型RAG算法之间缺乏全面和公平的比较。像LlamaIndex和LangChain这样的开源工具使用了高级抽象,这导致了透明度的缺失,并限制了开发新算法和评估指标的能力。RAGLAB:是一个模块化的开源库。RAGLAB复现了6种先进的算法,并为研究RAG算法提供了......
  • 开源大模型 | Open LLM集中爆发,卷疯了!
    开源大模型领域热闹非凡,各种开源,PaperAgent进行了概括:端侧、Code、RAG、Agent、Reflection(反思纠正)、MoE,你关注的都在这里了。一、ReflectionLlama-3.1-70B开源ReflectionLlama-3.170B是世界上顶尖的OpenLLM,通过反思微调技术(Reflection-Tuning)训练,能够检测并纠正推理错误,具有......
  • 大模型企业级RAG应用优化(二):检索与生成阶段的8个必知技巧
    一、使用查询重写提高检索的精确性查询重写(也称为查询转换或查询分析等)已经成为RAG工作流的常见环节。当用户的查询不够明确或具体时,可以通过查询重写来分解或者细化问题,以提升检索与生成的准确性。因此,查询转换是一种“检索前”的处理步骤。一个常见的重写方案是HyDE(假设性文档嵌......
  • 大模型企业级RAG应用优化(一):数据索引阶段的8个必知技巧
    基于大模型的RAG应用,一个普遍的认识是:做原型很简单,投入生产很难为什么我的RAG应用很难按预期工作?在之前的文章中我们曾经陆续的对RAG应用优化做过零星与局部的探讨,如融合检索、查询转换、多模态处理、AgenticRAG等。接下来我们将结合之前的方法与实践,总结形成更完整的企业级RAG应......
  • 大模型RAG优化策略总结(二):利用向量数据库实现高效的 RAG、针对 RAG 的微调语言模型、实
    五、利用向量数据库实现高效的RAG向量数据库专门用于存储和高效查询数据的高维向量表示,使其成为RAG检索组件的理想选择。以下是向量数据库如此重要的原因以及如何有效利用它们:a)可扩展性和性能:向量数据库针对处理大规模相似性搜索进行了优化,这对于具有广泛知识库的RAG系统至关......
  • HTML/CSS基础-盒模型
    一、边框属性(高度默认为0)1、边框就是环绕在标签宽度和⾼度周围的线条2、边框宽度:border-width:值;   边框样式:border-style:值;   边框颜⾊:border-color:值;二、外边距属性1、标签和标签之间的距离就是外边距2、a、非连写:上边距:margin-top:;    ......
  • 构建多轮对话问答系统:基于大模型的Agent与Tools探索
    在当今人工智能快速发展的时代,多轮对话问答系统作为人机交互的重要形式,正逐渐渗透到我们生活的各个领域,从智能家居到智能客服,从在线教育到医疗咨询,其应用场景日益广泛。本文将深入探讨如何基于大模型构建高效、智能的多轮对话问答系统,并介绍一些关键的Agent(代理)与Tools(工具)技术......
  • Suno 重磅功能「Covers」:一键翻唱任意歌曲;阿里通义将发布 AI 视频生成大模型丨 RTE 开
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观......
  • 进入大模型时代,你真的准备好了吗?
    前言-PREFACE近期OpenAIo1系列模型发布,在面对复杂问题和专业领域上,有了大幅长足进步,对于博士水平的物理问题,GPT-4o只能得不及格的59.5分,而o1直接干到92.8分,虽然主要是科学、编码和数学模型专业能力方面的提升,还没达到人工智能的通用人工智能AGI和超级人工智能水平,但带来冲击......