首页 > 其他分享 >大模型的涌现能力与预训练loss的关系比模型参数更紧密

大模型的涌现能力与预训练loss的关系比模型参数更紧密

时间:2024-04-28 10:23:17浏览次数:32  
标签:loss 训练 模型 损失 能力 涌现

清华大学和智谱AI团队研究发现:

大模型的涌现能力预训练loss的关系比模型参数更紧密。

https://arxiv.org/pdf/2403.15796

这篇论文《从损失角度理解语言模型的涌现能力》通过将预训练损失作为评估指标,强调了在理解和评价语言模型的涌现能力时,损失的重要性可能超过了模型参数的多少。

涌现能力

指的是模型在达到一定的规模和复杂性后,能够展现出一些在训练过程中未直接教授的能力或行为。

例如,某些大型语言模型可能在没有特定指导的情况下,自行学会翻译或总结文本,或者会说出一些并没教过的知识。

预训练loss

预训练阶段是在模型正式进行特定任务学习前,使用大量未标记半标记数据进行训练的阶段。

这个阶段的损失(loss),即模型预测与实际数据之间的差异,是衡量模型学习效果的一个重要指标。

损失越小,表示模型对训练数据的拟合越好,理解能力越强(并不是损失越小越好,会出现过拟合)。

模型参数

指构成模型的各种权重和偏置等参数的总数。通常认为参数越多,模型的理论学习能力越强。

该论文的观点

当语言模型的预训练损失降至某个特定阈值以下时,模型会开始在各种任务上表现出涌现能力,其表现显著优于随机猜测水平。


论文中的图表 4(Figure 4: The performance-vs-loss curves of different metrics on MMLU and C-Eval)展示当语言模型的预训练损失降至某个特定阈值以下时,模型在各种任务上的表现如何显著优于随机猜测水平。

重要的是,这种表现与模型的大小或训练数据量无关,这表明解锁这些能力的关键在于将预训练损失优化至关键值以下。

这就会出现:

传统上认为只有大型模型才具有的突发能力,也可以在较小的模型中观察到。

标签:loss,训练,模型,损失,能力,涌现
From: https://www.cnblogs.com/ghj1976/p/18163185/da-mo-xing-de-yong-xian-neng-li-yu-yu-xun-lianl

相关文章

  • 多模态大模型
    想了很久,最后还是写了这篇。LLaVA贡献多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令格式;大型多模态模型。研究者通过连接CLIP的开源视觉编码器和语言解码器LLaMA,开......
  • 大语言模型(LLM)的逻辑推理能力的例子 —— 以ChatGPT3.5为例
    例子:......
  • 简单理解盒子模型
    1.什么叫盒子模型在html中大部分元素,特别是块元素display:block;都可以被看做一个盒子。网页布局就是一个一个盒子的平铺,堆叠,嵌套摆放。这么多的盒子放在一起,最重要的就是去关注他们的各种尺寸,边界等等,主要怕意料外的重叠一类导致的显示不正常。2.W3C和IE盒子模型指的什么?W3......
  • EPAI手绘建模APP资源管理和模型编辑器1
    (10) 资源① 打开资源管理页面。图 15 资源列表-模型 图 16 资源列表-图层 图 17 资源列表-相机 图 18 资源列表-灯光② 资源管理页面包括模型列表、图层列表、相机列表、灯光列表;包括颜色选择页面、贴图选择页面、材质选择页面、样式选择页面。③ 模型......
  • EPAI手绘建模APP模型库
    (9) 库① 打开手绘建模模型集。 图 11 手绘建模模型集② 宫格显示所有创建和保存的模型,每个模型包括模型图片文件、模型文件名称、模型文件大小、修改日期。③ 在收藏的模型的图片左上角用☆标记。④ 点击搜索按钮,进入搜索;输入搜索关键字,显示所有符合条件的模型。......
  • 盒模型
    盒模型box:盒子,每个格元素在页面中都会生成一个矩形区域(盒子)行盒在页面中不换行,块盒独占一行盒子的组成部分内容content填充padding边框border外边距margin扩展box-size:盒子尺寸,宽高范围background-clip:背景覆盖范围word-break:断词规则,影响文字在什么位置被截......
  • 实验12-使用keras预训练模型完成猫狗识别
    版本python3.7tensorflow版本为tensorflow-gpu版本2.6运行结果:这里我用Gpu进行加速,训练一回9秒,如果不启用gpu,训练一回会很慢。  代码:#-*-codeing=utf-8-*-#@Time:2022/10/211:44#@Author:程浩#@File:猫狗识别.py#@Software:PyCharmimporttensorflow......
  • 笔记本1050ti跑autoformer模型,环境搭建过程
    ##1、选显卡对应得驱动程序https://www.nvidia.com/Download/index.aspxnotebook是笔记本,下载类型选sd。不更新驱动会报:RuntimeError:TheNVIDIAdriveronyoursystemistooold(foundversion8000).PleaseupdateyourGPUdriverbydownloadingandinstallinganew......
  • 笔记本1050ti运行DLinear模型遇到的问题
    1、windows没法运行shgitbash可以,但我需要在conda环境中,使用sh运行脚本,所以应该在安装conda后,先配环境变量,然后在gitbash窗口中执行condainitbash,就可以用在bash窗口中通过condaactivate进入conda环境了。2、运行sh,报错加载不到模块看报错最后一行上面的模块,pipuninsta......
  • MATLAB用GARCH-EVT-Copula模型VaR预测分析股票投资组合
    全文链接:http://tecdat.cn/?p=30426原文出处:拓端数据部落公众号对VaR计算方法的改进,以更好的度量开放式基金的风险。本文把基金所持股票看成是一个投资组合,引入Copula来描述多只股票间的非线性相关性,构建多元GARCH-EVT-Copula模型来度量开放式基金的风险,并与其他VaR估计方法的预......