大模型 | 关于GPT-5 训练失败的4点思考

时间：2024-09-18 15:53:05浏览次数：14

标签：归纳模型思考 GPT 硅谷推理

一、近期硅谷VC和创始人观点

最近硅谷风险投资和 AI领域创始人热议话题：Scaling Law 可能正在放缓。

1、超大规模模型：AI 依然是硅谷讨论的焦点，但热度较去年有所下降，主要原因是 Scaling Law 的速度减缓（需注意训练算力需求的降低趋势）。大约在3-4周前，谷歌在训练其下一代 Gemini 模型（规模是前一代的10倍，相当于GPT-5）时遭遇了2次失败。这也为 GPT-5 的延期发布提供了解释。目前硅谷普遍认为，在大型语言模型（LLM）层面，继续扩大模型规模面临较大挑战，原因包括：

a) 采用 MOE 技术后，大模型在训练后的效果不尽如人意，未能实现收敛。
b) 数据成为制约因素，合成的数据质量远不如网络搜集的数据。

2、GPT-5 的发布延期可能性仍然存在。

二、4点思考

思考一：信息量决定 GPT-4 性能

在使用 GPT-4 过程中，我注意到它在多数情况下提供的输出几乎达到了理想的水平。所谓的“完美”并非指通用人工智能（AGI）已经达成，而是在当前的系统框架下，通过对话界面加上有限的输入信息，模型能够基于这些信息给出接近理论上的最佳回复。简单来说，很多问题没有得到满意的答案，往往是因为输入的信息不够充分。

思考二：复杂推理需要 Agent 处理

尽管大模型具有强大的上下文处理能力，这对于搜索和总结任务极为有利，但在需要进行复杂推理的场景中，我们不应期待现有技术能够处理长上下文的推理问题。现有大模型更像是快速反应系统，对于涉及多步骤推理、信息对比、路径探索和经验累积等复杂任务，我们不应寄望于大模型内部能够完全实现这些功能。快速反应系统无法获得慢速思考所需的信息，因此也无法得到慢思考的结果。COT（思维链）的应用实际上是推理过程外部化的体现，而慢思考更适合通过 Agent 架构来处理。

思考三：大模型需工具辅助计算

有些问题不适合在现有大模型架构中直接解决，比如：精确的数学计算。对人类来说，简单的计算依赖于记忆，而稍微复杂的计算，即使是心算，也涉及逻辑推理和记忆过程。比如：计算58+34时，心算其实是一种慢思考的推理过程。因此，大型模型借助工具进行计算是一个合理的做法。

思考四：智慧不仅是信息压缩

虽然“压缩即智能”，但人类最顶尖的智慧，比如：物理理论，并非单纯通过压缩信息得来。压缩是一种归纳方法，例如，让大模型归纳各种物体自由落体的视频，可能会得出轻物体下落慢、重物体下落快的结论，或者归纳出不同物质的下落模型。然而，仅凭归纳是无法推导出重力加速度或空气阻力等科学原理的。尽管压缩可以体现智能，但最高级的智能来自于推理、假设和实验的过程。

标签：归纳,模型,思考,GPT,硅谷,推理
From： https://blog.51cto.com/u_16163510/12046921

大模型 | 自进化Agent：兼具反思与记忆增强能力
大模型在动态环境中持续决策、长期记忆缺乏以及有限的上下文窗口等方面仍面临挑战：元学习、多任务学习等方法来增强LLMs的迁移能力和适应性；针对有限记忆存储的问题，MemGPT和MemoryBank采用了不同的策略管理记忆；但这些方法通常针对特定任务或场景，缺乏一个通用框架。提出了一个创新框架......
大模型 | 一个全面、先进、公平且模块化的开源RAG框架
两个关键问题限制了RAG的发展：新型RAG算法之间缺乏全面和公平的比较。像LlamaIndex和LangChain这样的开源工具使用了高级抽象，这导致了透明度的缺失，并限制了开发新算法和评估指标的能力。RAGLAB：是一个模块化的开源库。RAGLAB复现了6种先进的算法，并为研究RAG算法提供了......
开源大模型 | Open LLM集中爆发，卷疯了！
开源大模型领域热闹非凡，各种开源，PaperAgent进行了概括：端侧、Code、RAG、Agent、Reflection（反思纠正）、MoE，你关注的都在这里了。一、ReflectionLlama-3.1-70B开源ReflectionLlama-3.170B是世界上顶尖的OpenLLM，通过反思微调技术（Reflection-Tuning）训练，能够检测并纠正推理错误，具有......
大模型企业级RAG应用优化（二）：检索与生成阶段的8个必知技巧
一、使用查询重写提高检索的精确性查询重写（也称为查询转换或查询分析等）已经成为RAG工作流的常见环节。当用户的查询不够明确或具体时，可以通过查询重写来分解或者细化问题，以提升检索与生成的准确性。因此，查询转换是一种“检索前”的处理步骤。一个常见的重写方案是HyDE（假设性文档嵌......
大模型企业级RAG应用优化（一）：数据索引阶段的8个必知技巧
基于大模型的RAG应用，一个普遍的认识是：做原型很简单，投入生产很难为什么我的RAG应用很难按预期工作？在之前的文章中我们曾经陆续的对RAG应用优化做过零星与局部的探讨，如融合检索、查询转换、多模态处理、AgenticRAG等。接下来我们将结合之前的方法与实践，总结形成更完整的企业级RAG应......
大模型RAG优化策略总结（二）：利用向量数据库实现高效的 RAG、针对 RAG 的微调语言模型、实
五、利用向量数据库实现高效的RAG向量数据库专门用于存储和高效查询数据的高维向量表示，使其成为RAG检索组件的理想选择。以下是向量数据库如此重要的原因以及如何有效利用它们：a）可扩展性和性能：向量数据库针对处理大规模相似性搜索进行了优化，这对于具有广泛知识库的RAG系统至关......
HTML/CSS基础-盒模型
一、边框属性（高度默认为0）1、边框就是环绕在标签宽度和⾼度周围的线条2、边框宽度：border-width:值; 边框样式：border-style:值; 边框颜⾊：border-color:值;二、外边距属性1、标签和标签之间的距离就是外边距2、a、非连写：上边距：margin-top:; ......
构建多轮对话问答系统：基于大模型的Agent与Tools探索
在当今人工智能快速发展的时代，多轮对话问答系统作为人机交互的重要形式，正逐渐渗透到我们生活的各个领域，从智能家居到智能客服，从在线教育到医疗咨询，其应用场景日益广泛。本文将深入探讨如何基于大模型构建高效、智能的多轮对话问答系统，并介绍一些关键的Agent（代理）与Tools（工具）技术......
Suno 重磅功能「Covers」：一键翻唱任意歌曲；阿里通义将发布 AI 视频生成大模型丨 RTE 开
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观......
进入大模型时代，你真的准备好了吗？
前言-PREFACE近期OpenAIo1系列模型发布，在面对复杂问题和专业领域上，有了大幅长足进步，对于博士水平的物理问题，GPT-4o只能得不及格的59.5分，而o1直接干到92.8分，虽然主要是科学、编码和数学模型专业能力方面的提升，还没达到人工智能的通用人工智能AGI和超级人工智能水平，但带来冲击......

大模型 | 关于GPT-5 训练失败的4点思考

一、近期硅谷VC和创始人观点

二、4点思考

相关文章

赞助商

阅读排行