首页 > 其他分享 >人工智能的渐进奇迹:大语言模型逐步揭秘

人工智能的渐进奇迹:大语言模型逐步揭秘

时间:2024-03-25 10:32:29浏览次数:23  
标签:预测 人工智能 渐进 模型 突现 参数 LLM 加法 揭秘

两年前,在一个名为"超越模仿游戏基准"(BIG-bench)的项目中,450名研究人员汇编了204个旨在测试大型语言模型能力的任务清单,这些模型是像ChatGPT这样的聊天机器人的动力源泉。在大多数任务上,随着模型规模的增加,性能预测地平稳提高——模型越大,性能越好。但在其他任务上,能力的提升并不平滑。性能在一段时间内几乎为零,然后突然跃升。其他研究也发现了类似的能力飞跃。

作者将其描述为“突破性”行为;其他研究人员将其比作物理学中的相变,如液态水冻结成冰。在2022年8月发表的一篇论文中,研究人员指出,这些行为不仅令人惊讶而且不可预测,它们应该成为围绕AI安全、潜力和风险不断演变的对话的一部分。他们将这些能力称为“突现”,这个词描述的是只有当系统达到高度复杂性时才出现的集体行为。

但情况可能并非如此简单。斯坦福大学三位研究人员的一篇新论文认为,这些能力的突然出现只是研究人员衡量LLM性能方式的一个结果。他们认为,这些能力既不是不可预测的,也不是突然的。“这种转变比人们认为的要可预测得多,”斯坦福大学的计算机科学家、论文的资深作者Sanmi Koyejo说。“关于突现的强烈主张,与我们选择的衡量方式有着同样的重要性,这与模型的实际操作有关。”

我们只是因为这些模型的规模变得如此之大,现在才开始看到并研究这种行为。大型语言模型通过分析大量的文本数据集——包括来自在线资源的书籍、网络搜索和维基百科的单词——并找出经常一起出现的单词之间的联系来进行训练。大小以参数来衡量,大致类似于所有可以连接的单词的方式。参数越多,LLM可以找到的连接就越多。GPT-2拥有15亿参数,而支持ChatGPT的GPT-3.5使用了3500亿参数。2023年3月推出的GPT-4现在支持Microsoft Copilot,据称使用了1.75万亿参数。

这种快速增长带来了惊人的性能和效率飙升,没有人质疑足够大的LLM可以完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福的三人组将突现视为“幻觉”,承认LLM在规模扩大时变得更有效;事实上,更大模型的增加复杂性应该使其有可能在更困难和更多样化的问题上表现得更好。但他们认为,这种改进看起来是平滑且可预测的还是参差不齐的,是由于度量标准的选择——甚至是测试示例的匮乏——而不是模型的内部工作。

三位数加法提供了一个例子。在2022年的BIG-bench研究中,研究人员报告说,当参数较少时,GPT-3和另一个名为LAMDA的LLM都未能准确完成加法问题。然而,当GPT-3使用130亿参数进行训练时,它的能力就像开关一样改变。突然之间,它能够进行加法运算——LAMDA在680亿参数时也能做到。这表明加法能力在某个阈值处出现。

但斯坦福的研究人员指出,这些LLM只根据准确性来判断:要么它们能够完美地做到,要么就做不到。因此,即使LLM预测了大部分数字正确,它也失败了。这似乎不对。如果你在计算100加278,那么376似乎比-9.34更准确。

因此,Koyejo及其合作者使用一种授予部分学分的度量标准测试了相同的任务。“我们可以问:它预测第一个数字的准确度如何?然后是第二个?然后是第三个?”他说。

Koyejo将这项新工作的想法归功于他的研究生Rylan Schaeffer,他说Rylan注意到LLM的性能似乎会随着其能力的衡量方式而改变。与另一位斯坦福研究生Brando Miranda一起,他们选择了新的度量标准,表明随着参数的增加,LLM在加法问题中预测的数字序列越来越正确。这表明加法能力不是突现的——意味着它经历了一个突然、不可预测的跳跃——而是逐渐和可预测的。他们发现,用不同的度量标准,突现消失了。

但其他科学家指出,这项工作并没有完全消除突现的概念。例如,这三人的论文并没有解释如何预测何时、哪些度量标准将显示LLM的急剧改善,东北大学的计算机科学家Tianshi Li说。“所以从这个意义上说,这些能力仍然是不可预测的,”她说。其他人,如现在在OpenAI工作、曾是BIG-bench论文作者之一的计算机科学家Jason Wei,认为早期关于突现的报告是合理的,因为对于像算术这样的能力来说,正确的答案确实是最重要的。

“这里绝对有一个有趣的对话,”AI初创公司Anthropic的研究科学家Alex Tamkin说。新论文巧妙地将多步骤任务分解,以识别个别组成部分的贡献,他说。“但这并不是全部故事。我们不能说所有这些跳跃都是幻觉。我仍然认为文献显示,即使你有一步预测或使用连续度量标准,你仍然会有不连续性,随着你的模型大小的增加,你仍然可以看到它以跳跃式的方式变得更好。”

即使可以用不同的测量工具解释今天的LLM中的突现,这很可能不适用于明天更大、更复杂的LLM。“当我们将LLM发展到下一个水平时,它们不可避免地将借鉴其他任务和模型的知识,”莱斯大学的计算机科学家Xia “Ben” Hu说。

这种对突现的不断考量不仅仅是研究人员要考虑的抽象问题。对于Tamkin来说,它直接涉及到预测LLM行为的持续努力。“这些技术是如此广泛且适用,”他说。“我希望社区将此作为一个起点,继续强调预测这些事物的科学有多么重要。我们如何不被下一代模型所惊讶?


​​​​​​​

标签:预测,人工智能,渐进,模型,突现,参数,LLM,加法,揭秘
From: https://blog.csdn.net/ponderai/article/details/136999208

相关文章

  • AI每日一问:世界的本源是什么?是原子的吗?无限可分的吗?是物质的还是想象的? 我们应当怎样
    1.世界的本源是什么?是原子的吗?无限可分的吗?是物质的还是想象的?我们应当怎样看待物质世界?以及怎么快速促进强人工智能的到来?Claude-3-Opus这些都是非常深奥而有趣的哲学问题,需要我们深入探讨和思考。关于世界本源的问题,不同的哲学流派有不同的看法。原子论认为物质世界......
  • 2024人工智能十大发展趋势
    人工智能会给我们带来哪些千亿美元的财富机会?梳理一下AI十大趋势,独特的投资判断将有助于我们发现机会。作为史上最卓越的投资人之一,查理·芒格说要耐心等待大机会,发现定价错误的时候要全力出击,人生有十次这样的大机会就足够达到千亿美元财富量级。他和巴菲特的合作已经证明了这一......
  • 编程界的万能钥匙:揭秘程序员常用的超实用算法!
    程序员常用的算法引言一、排序算法:为数据秩序井然二、搜索算法:高效定位数据三、图算法:理解复杂网络结构四、动态规划:优化递归求解过程五、贪心算法:简单高效的局部最优解六、数据结构相关算法:必不可少的工具七、算法的选择与实践:如何选择合适的算法结语引言大家好,这......
  • 程序员的内功心法:核心技能与学习资源全揭秘
    引言在深入探讨程序的多样性与实际应用之前,我们首先需要理解程序究竟是什么,它是如何从最初的简单机械指令,演化为今天我们所依赖的复杂代码集合的。程序,简单来说,就是一组让计算机执行特定任务的指令集合。它不仅包含了具体的操作步骤,还包括了操作的顺序和结构,这一点让程序与一......
  • 学习人工智能:Attention Is All You Need-2-Transformer模型;Attention机制;位置编码
    3.2注意力机制Attention注意力函数可以描述为将查询和一组键值对映射到输出的过程,其中查询、键、值和输出都是向量。输出被计算为值的加权和,其中每个值的权重由查询与相应键的兼容性函数计算得出。3.2.1缩放点积注意力 ScaledDot-ProductAttention我们将我们特定的......
  • C++结构体内幕揭秘:sizeof之谜与内存布局探秘
     概述:C++结构体的`sizeof`不总是等于每个成员的`sizeof`之和,因为对齐和填充影响了内存布局。未对齐的结构体可能存在间隙,而对齐的结构体会插入填充以保持对齐。通过示例展示了结构体的内存对齐和填充,以及如何使用模板元编程打印结构体成员的偏移量,深入理解内存布局。在C++中,......
  • 【专题】展望人工智能银行:当银行遇到AI报告PDF合集分享(附原数据表)
    报告链接:http://tecdat.cn/?p=32210在2016年,AlphaGo机器人打败了18届世界棋王李世石,成为了世界棋坛上最伟大的人物。阅读原文,获取专题报告全文,解锁154份文末人工智能银行相关报告。围棋是一种非常复杂的棋类,它要求有很强的直觉,想像力和策略性的思考,而这一切在很长一段时间里都......
  • 通用人工智能的基石 —— 人工智能“新基建、关键基础设施”—— 3D游戏引擎
    相关:https://www.unrealengine.com/zh-CN/uses/simulationhttps://www.epicgames.com/site/zh-CN/careers/jobs?lang=zh-CN3D游戏引擎是人工智能的“新基建、关键基础设施”,这个概念或许很多人都没有听说过,甚至初听好感觉离谱、可笑,不过这却是事实。3D游戏引擎对于AI领域可以......
  • 人工智能如何让测试更智能更高效?
    在软件开发领域,自动化测试已经成为提高产品质量和加速开发周期的重要手段。而人工智能技术的迅速发展为自动化测试带来了新的机遇和挑战。本文将重点探讨人工智能在自动化测试中的应用。智能测试用例生成传统的测试用例编写通常依赖于测试人员的经验和知识,但随着软件系统的复杂......
  • 打造个人版ChatGPT:人工智能对话的探索之旅
    大家好,在这里想跟大家分享一个近期我倾心打造的小项目——一款基于先进人工智能技术的对话式交互网站,可以说是“我的ChatGPT”。这款网站旨在通过模拟人类智能对话的方式,为用户提供个性化的信息查询、问题解答及创意启发等功能。点击这里进入自踏入编程世界以来,我一直对人工智能......