首页 > 其他分享 >Language models scale reliably with over-training and on downstream tasks

Language models scale reliably with over-training and on downstream tasks

时间:2024-12-02 10:32:36浏览次数:9  
标签:training scale downstream 训练 缩放 模型 定律 下游 预测

本文是LLM系列文章,针对《Language models scale reliably with over-training and on downstream tasks》的翻译。

语言模型可以通过过度训练和下游任务可靠地扩展

摘要

缩放定律是昂贵训练运行去风险的有用指南,因为它们使用更便宜的小规模实验来预测大型模型的性能。然而,当前的缩放研究与语言模型的最终训练和评估方式之间仍存在差距。例如,缩放通常在计算最优训练方案(即“钦奇利亚最优”方案)中进行研究。相比之下,模型通常被过度训练以降低推理成本。此外,缩放定律主要预测下一个token预测的损失,但模型通常在下游任务性能上进行比较。为了解决这两个缺点,我们创建了一个由104个模型组成的测试台,这些模型具有0.011B到6.9B的参数,在三个数据分布上用不同数量的token训练。首先,我们拟合了在过度训练量和模型参数数量方面进行外推的缩放定律。这使我们能够预测1.4B参数、900Btoken运行(即32倍过训练)和6.9B参数、138Btoken运行的验证损失(即计算最优运行)——每一个都来自计算量减少300倍的实验。其次,我们通过提出幂律,将语言模型的困惑与其下游任务性能联系起来。我们使用这一定律来预测上述两个模型在下游任务上的前1个平均误差,使用的实验计算量减少了20倍。我们的实验

标签:training,scale,downstream,训练,缩放,模型,定律,下游,预测
From: https://blog.csdn.net/c_cpp_csharp/article/details/144053807

相关文章

  • 从零开始的 CPT (Continual Pre-Training): 摆脱复杂的训练框架
    由于要解决一些业务问题,需要将领域知识喂给大模型。之前只做过简单的finetuning(在GLM的框架上跑了一些lora,数据量也不大),但是现在要将整个细分工业领域的相关数据都收集起来训练,规模上比之前半手动构造的微调数据集要大了很多,调研了一圈,更适合在pre-train阶段去做训练。尝试......
  • 图像尺寸变换scalepadding方法
    在深度学习中,当需要将图像调整到特定尺寸时,直接resize可能会导致图像失真,特别是当目标尺寸与原始图像的宽高比不一致时。为了解决这个问题,一种最常见的方法是首先按照原始图像的宽高比将图像调整到与目标尺寸最接近的尺寸,然后在剩余的空间中使用padding进行填充,以得到目标尺寸......
  • Economies of Scale
    规模经济(EconomiesofScale)规模经济指的是随着生产规模的扩大,单位产品的平均成本下降的现象。这通常发生在企业生产规模增加到一定程度时,由于固定成本(如厂房、机器设备等)被更多的产品分摊,单位产品的固定成本降低,同时由于规模的扩大,企业可能会享受到采购原材料的批量 折扣、更......
  • CSC3100 Problem Scale & Subtasks
    RequirementsCode(90%)YoucanwriteyourcodeinJava,Python,C,orC++.Thetimelimitmayvaryamongdifferentlanguages,dependingontheperformanceofthelanguage.Yourcodemustbeacompleteexcutableprograminsteadofonlyafunction.Weg......
  • 【论文阅读】【IEEE TGARS】RRNet: Relational Reasoning Network WithParallel Multi
    引言任务:光学遥感显著目标检测-关系推理论文地址:RRNet:RelationalReasoningNetworkWithParallelMultiscaleAttentionforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址:rmcong/RRNet_TGRS2021(g......
  • POLIR-Society-Organization-Psychology-Training: The Junto Institute: {Relationsh
    POLIR-Society-Organization-Psychology-Emotionhttps://www.thejuntoinstitute.com/Emotionalintelligencetrainingformanagers&leadersintheremoteworkplace.HowYourCompanyBenefitsBettermanagersforimprovedemployeeperformanceHighermanag......
  • 2019-3-13-win10-uwp-使用-ScaleTransform-放大某个元素
    titleauthordateCreateTimecategorieswin10uwp使用ScaleTransform放大某个元素lindexi2019-3-1319:5:56+08002019-03-1316:50:36+0800Win10UWP本文告诉大家如何通过ScaleTransform放大元素放大一个元素的方法有很多个,通过ScaleTransform放大是比较清真的在UWP中Sc......
  • PyTorchStepByStep - Chapter 2: Rethinking the Training Loop
      defmake_train_step_fn(model,loss_fn,optimizer):defperform_train_step_fn(x,y):#SetmodeltoTRAINmodemodel.train()#Step1-Computemodel'spredictions-forwardpassyhat=model(x)......
  • OpenWrt 运行 tailscale 登录 headscale,配置路由转发
    headscale安装参考:https://www.cnblogs.com/nihaorz/p/18455027tailscale安装cd/var/lib/curl-OLhttps://pkgs.tailscale.com/stable/tailscale_1.74.1_arm64.tgztar-zxvftailscale_1.74.1_arm64.tgzmvtailscale_1.74.1_arm64tailscalermtailscale/systemd/tails......
  • 【HITCON-Training】Lab 12 - SecretGarden
    学习于2024-10-0122:00:17星期二心得感想:这次真的把我整笑了,现在是10/2的晚上23点,我都不敢想象自己弄了多久(整整两天国庆的下午......