清华大学和智谱AI团队研究发现:
大模型的涌现能力与预训练loss的关系比模型参数更紧密。
https://arxiv.org/pdf/2403.15796
这篇论文《从损失角度理解语言模型的涌现能力》通过将预训练损失作为评估指标,强调了在理解和评价语言模型的涌现能力时,损失的重要性可能超过了模型参数的多少。
涌现能力
指的是模型在达到一定的规模和复杂性后,能够展现出一些在训练过程中未直接教授的能力或行为。
例如,某些大型语言模型可能在没有特定指导的情况下,自行学会翻译或总结文本,或者会说出一些并没教过的知识。
预训练loss
预训练阶段是在模型正式进行特定任务学习前,使用大量未标记或半标记数据进行训练的阶段。
这个阶段的损失(loss),即模型预测与实际数据之间的差异,是衡量模型学习效果的一个重要指标。
损失越小,表示模型对训练数据的拟合越好,理解能力越强(并不是损失越小越好,会出现过拟合)。
模型参数
指构成模型的各种权重和偏置等参数的总数。通常认为参数越多,模型的理论学习能力越强。
该论文的观点
当语言模型的预训练损失降至某个特定阈值以下时,模型会开始在各种任务上表现出涌现能力,其表现显著优于随机猜测水平。
论文中的图表 4(Figure 4: The performance-vs-loss curves of different metrics on MMLU and C-Eval)展示当语言模型的预训练损失降至某个特定阈值以下时,模型在各种任务上的表现如何显著优于随机猜测水平。
重要的是,这种表现与模型的大小或训练数据量无关,这表明解锁这些能力的关键在于将预训练损失优化至关键值以下。
这就会出现:
标签:loss,训练,模型,损失,能力,涌现 From: https://www.cnblogs.com/ghj1976/p/18163185/da-mo-xing-de-yong-xian-neng-li-yu-yu-xun-lianl传统上认为只有大型模型才具有的突发能力,也可以在较小的模型中观察到。