首页 > 其他分享 >规模法则(Scaling Law)与参数效率的提高,

规模法则(Scaling Law)与参数效率的提高,

时间:2024-12-14 14:56:52浏览次数:6  
标签:论文 法则 模型 arxiv Scaling abs https org Law

上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》

规模法则与效率提高

如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。

此外,下面是我发现特别有趣和值得阅读的几篇论文。

(10)FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(2022),由Dao、Fu、Ermon、Rudra 和 Ré 合著,https://arxiv.org/abs/2205.14135

虽然大多数变换器论文没有专门讨论如何替代原始的缩放点积机制来实现自注意力,但FlashAttention是我最近看到最多被提到的一种机制。

来源:https://arxiv.org/abs/2205.14135

(11)Geiping 和 Goldstein 于2022年发表的《Cramming: Training a Language Model on a Single GPU in One Day》,https://arxiv.org/abs/2212.14034

在这篇论文中,研究人员用一块GPU训练了一个掩蔽语言模型/编码器风格的大型语言模型(这里是BERT),训练时间为24小时。做个对比,2018年原始的BERT论文是用16块TPU训练了四天。一个有趣的发现是,尽管小模型的吞吐量更高,但小模型的学习效率较低。因此,大模型并不需要更长的训练时间就能达到特定的预测性能阈值。

来源: https://arxiv.org/abs/2212.14034

标签:论文,法则,模型,arxiv,Scaling,abs,https,org,Law
From: https://blog.csdn.net/JellyAI/article/details/144466471

相关文章

  • 规模法则(Scaling Law)与参数效率的提高,
    上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《EfficientTransformers:ASurvey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《ASurveyonEfficientTrainingof......
  • 如果有两种或以上的方法可以执行某项任务,其中之一可能会导致灾难,那么一定会有人选择那
    https://baike.baidu.com/item/墨菲定律/746284 墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。其含义是说,无论是因为存在一个错误的方法,或是存在发生某种错误的潜在可能性,只要重复进行某项行动,错误在某个时刻就会发生。 [1-3]有关墨菲定律具体的起源......
  • 八大元素定位法则
    '''八大元素定位法则所有的元素定位,都是调用的一个核心方法,driver.find_element()。此方法就是基于八种元素定位方法定位某个需要的元素。'''fromseleniumimportwebdriverfromselenium.webdriver.chrome.serviceimportServiceservice=Service('../chromedr......
  • LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law
    来源|机器之心支持大模型一路狂飙的ScalingLaw到头了?近期,AI圈针对ScalingLaw是否到头产生了分歧。一派观点认为ScalingLaw已经「撞墙」了,另一派观点(如OpenAICEOSamAltman)仍然坚定ScalingLaw的潜力尚未穷尽。其实以上争论的核心点在于,大模型的性能提升......
  • law和statute的区别
    law和statute都是法律的意思。他们的区别在于:law强调你要遵守法律。如:obeythelaw(守法)statute区别于act和bill,表示该规定已经被立法机构批准实施。如:astatute requiringtheuseofseatbelts(一部要求人们使用安全带的法律)顺带一提,act虽然也是被立法机构批准实施的法律,但是......
  • 结合SMART法则和团队协作软件,提升工作效率
    在项目管理中,明确的目标设定是成功的关键之一。SMART原则作为一种流行的目标设定方法,帮助团队设定清晰、可衡量和可实现的目标。而在实际操作中,如何将这些目标落实到日常任务和工作中,成为了提高效率和确保目标达成的挑战之一。幸运的是,现代项目管理工具,特别是基于看板理论的任务管......
  • 别再乱糟糟!学术知识的高效整合法则
    在信息爆炸的时代,如何高效管理知识成为了学术工作者的重要挑战。以往,许多人将知识管理局限于单纯的文档存储与分类,但随着需求的精细化,单纯的工具已不足以应对复杂的学术需求。今天想和大家聊一个不那么显而易见但非常实用的知识管理概念——动态结构化看板,这或许能给你不一样的启......
  • “刺猬法则”在团队协作中的应用:如何保持适当的距离
    果你觉得这篇文章对你有帮助,请不要吝惜你的“关注”、“点赞”、“评价”、“收藏”,你的支持永远是我前进的动力~~~个人收藏的技术大会分享PDF文档,欢迎点击下载查看!!!摘要刺猬法则,又称为刺猬效应,是一个描述人际交往中距离感的心理学概念。在团队协作中,这一法则同样适用,它强......
  • POLIR-Society-Organization-Psychology-Training: The Junto Institute: {Relationsh
    POLIR-Society-Organization-Psychology-Emotionhttps://www.thejuntoinstitute.com/Emotionalintelligencetrainingformanagers&leadersintheremoteworkplace.HowYourCompanyBenefitsBettermanagersforimprovedemployeeperformanceHighermanag......
  • [Paper Reading] HPT: Scaling Proprioceptive-Visual Learning with Heterogeneous P
    目录ScalingProprioceptive-VisualLearningwithHeterogeneousPre-trainedTransformersTL;DRMethodStemTrunkLossHeadExperiment训练资源效果可视化总结与发散相关链接资料查询ScalingProprioceptive-VisualLearningwithHeterogeneousPre-trainedTransformersScaling......