首页 > 其他分享 >LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

时间:2024-12-10 18:29:47浏览次数:4  
标签:天翻 LLM 定律 AI 模型 能力 密度 Law

来源 | 机器之心

支持大模型一路狂飙的 Scaling Law 到头了?

近期,AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了,另一派观点(如 OpenAI CEO Sam Altman)仍然坚定 Scaling Law 的潜力尚未穷尽。

其实以上争论的核心点在于,大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。

然而 Scaling Law 并非唯一的视角,近期,来自清华大学刘知远教授团队发现并提出大模型的密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长,2023 年以来能力密度约每 3.3 个月(约 100 天) 翻一倍。这意味着每 100 天,我们可以用一半参数量实现当前最优模型相当的性能。

根据密度定律,研究团队还得出以下重要推论,并且发现 AI 时代的三大核心引擎——电力、算力与智力,都同样遵循密度快速增长趋势。

  • 推论 1 :模型推理开销随时间指数级下降。

  • 推论 2 :大模型能力密度正在加速增强 。

  • 推论 3:模型小型化揭示端侧智能巨大潜力 。

  • 推论 4:无法依靠模型压缩算法增强模型能力密度 。

  • 推论 5:模型高性价比有效期不断缩短。

图片

该定律还揭示了端侧智能的巨大潜力,并指出未来应持续探索大模型科学化建设路径,不断改进模型制造工艺,实现大模型的高质量、可持续发展。

相关研究成果可参考论文《Densing Law of LLMs》。

图片

  • 论文标题:Densing Law of LLMs

  • 论文链接:https://arxiv.org/pdf/2412.04315v2

Scaling Law 和 Densing Law

大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指导性的规律发现。它们分别在不同的维度,对大模型进行科学化的推演。

大模型尺度定律是一种描述大模型随着规模的变化而发生的规律性变化的数学表达,表现为大模型的 Loss 与模型参数规模、训练数据规模之间的幂律关系。

尺度定律之外,清华研究团队发现,大模型还有另一种度量与优化的空间,能力密度(Capability Density),它为评估不同规模 LLM 的训练质量提供了新的统一度量框架。

清华研究团队提出的「能力密度」(Capability Density),定义为给定 LLM 的有效参数大小与实际参数大小的比率。有效参数大小指的是达到与目标模型同等性能所需的参考模型的参数数量。清华研究团队特别引入了参考模型(Reference Model)的概念,通过拟合参考模型在不同参数规模下的性能表现,建立起参数量与性能之间的映射关系。

具体来说,若一个目标模型 M 的参数量为 N_M ,其在下游任务上的性能分数为 S_M,研究人员会计算出参考模型要达到相同性能所需的参数量 N (S_M),即「有效参数量」。目标模型 M 的密度就定义为这个「有效参数量」与其实际参数量的比值:

图片

比如一个 3B 的模型能达到 6B 参考模型的性能,那么这个 3B 模型的能力密度就是 2(6B/3B)。

为了准确估计模型性能,研究团队采用了两步估计法。第一步是损失(Loss)估计,通过一系列不同规模的参考模型来拟合参数量与语言模型 Loss 之间的关系;第二步是性能估计,考虑到涌现能力的存在,研究人员结合开源模型来计算它们的损失和性能,最终建立起完整的映射关系。

通过研究分析近年来 29 个被广泛使用的开源大模型,清华研究团队发现,LLM 的最大能力密度随时间呈指数增长趋势,可以以下公式来描述,其中 ρ_max 是时间 t 时 LLM 的最大能力密度。

图片

密度定律表明,大约每过 3.3 个月 (100 天),我们就能用参数量减半的模型达到当前最先进模型的性能水平。

图片

基于密度定律,清华研究团队提出了多个重要推论。

首先,模型推理开销随时间指数级下降。2022 年 12 月的 GPT-3.5 模型每百万 Token 的推理成本为 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模型仅为 0.075 美元,成本降低了 266 倍,约 2.5 个月下降一倍。与此同时,大模型推理算法不断取得新的技术突破:模型量化、投机采样、显存优化 。

图片

其次,研究还发现,自 ChatGPT 发布以来,大模型能力密度正在加速增强 。

以 MMLU 为评测基准测量的能力密度变化情况,ChatGPT 发布前按照每 4.8 月倍增,发布后按照每 3.2 月倍增,密度增强速度增加 50% 。这一现象背后,更高效模型引起了学术界和产业的广泛关注,诞生了更多高质量开源模型。

图片

再次,芯片电路密度 (摩尔定律) 和模型能力密度 (密度定律) 持续增强,两条曲线交汇揭示端侧智能巨大潜力。研究显示,在摩尔定律的作用下,相同价格芯片的计算能力每 2.1 年翻倍,而密度法则表明模型的有效参数规模每 3.3 个月翻倍。两条曲线的交汇,意味着主流终端如 PC、手机将能运行更高能力密度的模型,推动端侧智能在消费市场普及。

图片

此外,团队指出,无法仅依靠模型压缩算法增强模型能力密度 。现有的模型压缩技术(如剪枝和蒸馏)未必能提高模型密度。实验表明,大多数压缩模型的密度低于原始模型,模型压缩算法虽可以节省小参数模型构建开销,但是如果后训练不充分,小参数模型能力密度将会有显著下降。

图片

最后,研究团队指出,模型高性价比有效期不断缩短。根据尺度定律,更多数据 + 更多参数实现能力增强,训练成本会急剧上升;而能力密度定律,随着能力密度加速增强,每隔数月会出现更加高效的模型。这意味着模型高性价比的有效使用期缩短,盈利窗口短暂。例如,2024 年 6 月发布的 Google Gemma-2-9B 模型,其训练成本约 185 万人民币,但仅两个月后,它的性能就被参数量减半的 MiniCPM-3-4B 超越。以 API 盈利方式估算,2 个月内需要 17 亿次用户访问,才能够收回训练成本!

图片

Densing Law(密度定律)揭示 LLM 进入「密度至上」新发展阶段

尺度定律下,LLM 规模至上。而在密度定律下,LLM 正进入一个全新的发展阶段。在清华刘知远老师最新报告中,AI 时代的三大核心引擎 —— 电力、算力与智力,密度都在快速增长:电池能量密度在过去 20 年中增长了 4 倍,其倍增周期约为 10 年;摩尔定律则揭示,芯片的晶体管密度每 18 个月翻倍;而 AI 模型能力密度每 100 天翻倍的速度更是惊人。

图片

尤其是模型能力密度的提升也意味着用更少的资源实现更强的能力,这不仅降低了 AI 发展对能源和算力的需求,也为 AI 技术的可持续发展提供了无限可能。同时也揭示了端侧智能的巨大潜力 。

在这一趋势下,AI 计算从中心端到边缘端的分布式特性协同高效发展,将实现「AI 无处不在」的愿景。随着全球 AI 计算云端数据中心、边缘计算节点的扩张,加上模型能力密度增长带来的效率提升,我们将看到更多本地化的 AI 模型涌现,云端和边缘端各司其职,可运行 LLM 的终端数量和种类大幅增长,「AI 无处不在」的未来正在到来。

标签:天翻,LLM,定律,AI,模型,能力,密度,Law
From: https://blog.csdn.net/AIBigModel/article/details/144380253

相关文章

  • 古早的遗传算法碰到LLM->AutoDAN Generating Stealthy Jailbreak Prompts onAligned L
    师兄推给我的一篇ICLR,抽出时间阅读整理了附录前的内容......
  • XAI4LLM:结合ML和LLM的医疗诊断框架,通过不同的交互方式(NC/NL-ST)实现信息的有效传递
    XAI4LLM:结合ML和LLM的医疗诊断框架,通过不同的交互方式(NC/NL-ST)实现信息的有效传递论文大纲理解1.排除推理:为什么选择LLM而不是传统ML方法?2.比较推理:NCvsNL-ST交互模式3.因果推理:领域知识如何影响模型性能作者解决思路全流程完全拆解数据分析解法拆解为什么作者选......
  • 安装Docker Desktop时出现报错,WSL2 升级更新失败(退出代码: 1603,错误代码: Wsl/CallMs
     安装DockerDesktop时出现报错,WSL2升级更新失败一、问题首先遇到的问题是安装dockerdesktop后,启动引擎时报错wslupdatefailed:updatefailed:updatingwsl:exitcode:4294967295:runningwslcommandwsl.exec:\windows\system32\wsl.exe--update--we......
  • 为什么大模型在企业落地难?(LLM技术挑战和解决篇)
    0、前言AI是下一代颠覆性的机会,已经是很多人的共识。尤其是在媒体的大力宣传下,大模型显得格外火热,但为什么已经到2024年了,在企业落地应用上颇有“雷声大,雨点小”的态势呢?前排提示,文末有大模型AGI-CSDN独家资料包哦!落地遇到的挑战是什么?希望尝试从3个不同的角度来讨论:1)大......
  • 从代码解析Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generate
    本文是对一篇ICML2024文章SpottingLLMsWithBinoculars:Zero-ShotDetectionofMachine-GeneratedText进行计算过程的讲解该文章主要提供了一种zero-shot的AIGC文本检测方法,在文章中所说,使用较少的计算量就起到了不错的效果主要计算过程如下图所示:perplexityperp......
  • 如何实现LLM的通用function-calling能力?
    众所周知,LLM的函数function-calling能力很强悍,解决了大模型与实际业务系统的交互问题。其本质就是函数调用。从openai官网摘图: 简而言之:LLM起到决策的作用,告知业务系统应该调用什么函数,以及入参是什么。业务系统负责实现对应的函数(比如本地实现,或者调用其他系统提供的服......
  • Designing an LLMs accelerator
    Assignment4220pts(+140bonuspts)Duedate:11:59PMPST,Dec6(Fri),2024Readtheentiredocumentcarefullyandprovideappropriateanswersbasedonthecontext.<Backgrounds>Figure1.Anillustrationofthebatchedmatrixmultiplication(BMM)......
  • LLM学习笔记(17)序列标注任务(训练模型阶段)
    训练模型这段代码的主要功能是构建一个用于序列标注任务的模型,尤其是针对命名实体识别(NER,NamedEntityRecognition)的任务。通过利用BERT模型和Transformers库提供的工具,快速构建一个可用于标注每个token的实体标签的分类器。构建模型具体功能AutoModelFo......
  • 探索SparkLLM API:如何在你的应用中集成智能聊天功能
    探索SparkLLMAPI:如何在你的应用中集成智能聊天功能引言现如今,人工智能聊天机器人在各类应用中愈发流行,帮助企业和开发者提升用户体验。iFlyTek的SparkLLM是一个出色的聊天模型API,它为开发者提供了强大的语言理解和生成能力。本篇文章旨在介绍如何使用SparkLLMAPI来集成......
  • 在Intel GPU上使用IPEX-LLM进行本地BGE嵌入优化
    在IntelGPU上使用IPEX-LLM进行本地BGE嵌入优化引言在人工智能领域,嵌入技术广泛应用于信息检索、问答系统等任务中。对于许多开发者而言,了解如何在IntelGPU上利用IPEX-LLM进行优化以获得低延迟、高性能的嵌入操作,是一项非常有价值的技能。本文将以LangChain为例,演示如何......