本文是LLM系列文章,针对《Language models scale reliably with over-training and on downstream tasks》的翻译。
语言模型可以通过过度训练和下游任务可靠地扩展
摘要
缩放定律是昂贵训练运行去风险的有用指南,因为它们使用更便宜的小规模实验来预测大型模型的性能。然而,当前的缩放研究与语言模型的最终训练和评估方式之间仍存在差距。例如,缩放通常在计算最优训练方案(即“钦奇利亚最优”方案)中进行研究。相比之下,模型通常被过度训练以降低推理成本。此外,缩放定律主要预测下一个token预测的损失,但模型通常在下游任务性能上进行比较。为了解决这两个缺点,我们创建了一个由104个模型组成的测试台,这些模型具有0.011B到6.9B的参数,在三个数据分布上用不同数量的token训练。首先,我们拟合了在过度训练量和模型参数数量方面进行外推的缩放定律。这使我们能够预测1.4B参数、900Btoken运行(即32倍过训练)和6.9B参数、138Btoken运行的验证损失(即计算最优运行)——每一个都来自计算量减少300倍的实验。其次,我们通过提出幂律,将语言模型的困惑与其下游任务性能联系起来。我们使用这一定律来预测上述两个模型在下游任务上的前1个平均误差,使用的实验计算量减少了20倍。我们的实验
标签:training,scale,downstream,训练,缩放,模型,定律,下游,预测 From: https://blog.csdn.net/c_cpp_csharp/article/details/144053807