首页 > 其他分享 >人工智能规模法则的起源、分析、内幕以及对齐方法

人工智能规模法则的起源、分析、内幕以及对齐方法

时间:2024-12-16 09:31:55浏览次数:8  
标签:法则 训练 人工智能 模型 arxiv abs https org 对齐

上一篇:《人工智能大语言模型起源篇,低秩微调(LoRA)》

(14)Rae 和同事(包括78位合著者!)于2022年发表的《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》,https://arxiv.org/abs/2112.11446

《Gopher》是篇特别好的论文,包含了大量分析来帮助理解大型语言模型(LLM)的训练过程。在这篇论文中,研究人员训练了一个包含2800亿参数、80层的模型,使用了3000亿个标记(tokens)。其中包括一些有趣的架构修改,比如使用RMSNorm(均方根归一化)代替LayerNorm(层归一化)。LayerNorm和RMSNorm通常比BatchNorm更受欢迎,因为它们不依赖于批量大小,也不需要同步,在使用较小批量大小的分布式环境下具有优势。不过,通常认为RMSNorm能稳定更深层架构的训练。

除了像上述的有趣细节外,这篇论文的主要焦点是对不同规模模型任务表现的分析。在152个不同任务上的评估结果显示,增加模型规模对理解、事实核查和有害语言识别等任务的提升最大。不过,涉及逻辑和数学推理的任务,从架构扩展中获益较少。

                                              来源:图片来自https://arxiv.org/abs/2112.11446

(15)Hoffmann、Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals 和 Sifre 于2022年发表的《Training Compute-Optimal Large Language Models》,https://arxiv.org/abs/2203.15556

这篇论文介绍了70亿参数的Chinchilla模型,它在生成建模任务上超越了流行的175亿参数的GPT-3模型。然而,论文的核心观点是,现代的大型语言模型“明显训练不足”。

论文定义了大语言模型训练的线性扩展规律。例如,尽管Chinchilla的规模只有GPT-3的一半,但它在训练了1.4万亿(而不是仅仅3000亿)标记后,超越了GPT-3。换句话说,训练标记的数量和模型规模一样重要。


来源:https://arxiv.org/abs/2203.15556

(16)Biderman、Schoelkopf、Anthony、Bradley、O'Brien、Hallahan、Khan、Purohit、Prashanth、Raff、Skowron、Sutawika 和 van der Wal 于2023年发表的《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》,https://arxiv.org/abs/2304.01373

Pythia是一套开源的大型语言模型(70M到12B参数),用于研究大型语言模型在训练过程中如何演变。

它的架构类似于GPT-3,但包括了一些改进,例如,Flash Attention(类似LLaMA)和旋转位置嵌入(类似PaLM)。Pythia使用The Pile数据集(825GB)进行训练,训练了300B标记(在常规的PILE上约训练了1个epoch,在去重的PILE上训练了约1.5个epoch)。

                              pytaiya 模型套件来自 https://arxiv.org/abs/2304.01373。

Pythia研究的主要发现如下:

  1. 在重复数据上训练(由于大型语言模型的训练方式,这意味着训练超过一个epoch)不会对性能产生正面或负面影响。

  2. 训练顺序不会影响记忆效果。这很遗憾,因为如果情况相反,我们可以通过重新排序训练数据来缓解不希望的逐字记忆问题。

  3. 预训练的词频会影响任务性能。例如,较常见的词汇通常会提高少样本准确率。

  4. 将批量大小加倍,可以将训练时间减少一半,但不会影响收敛性。

对齐——引导大型语言模型朝向预期目标和利益

近年来,我们看到许多相对强大的大型语言模型,它们可以生成真实的文本(比如GPT-3和Chinchilla等)。似乎我们在使用常见的预训练范式上已经达到了瓶颈。

为了让语言模型更有帮助,并减少错误信息和有害语言,研究人员设计了额外的训练范式来微调预训练的基础模型。

(17) 《训练语言模型以遵循指令并结合人类反馈》(2022年),作者:Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike、Lowe,网址:https://arxiv.org/abs/2203.02155。

在这篇所谓的InstructGPT论文中,研究人员使用了一个带有人类在环的强化学习机制(RLHF)。他们从一个预训练的GPT-3基础模型开始,使用人类生成的提示-回应对进行监督学习,进一步微调模型(步骤1)。接下来,他们让人类对模型输出进行排名,以训练一个奖励模型(步骤2)。最后,他们使用奖励模型,通过近端策略优化(PPO)强化学习更新预训练并已微调的GPT-3模型(步骤3)。

顺便提一下,这篇论文也被认为是描述ChatGPT背后思想的论文——根据最近的传闻,ChatGPT是InstructGPT的扩展版,已经在更大的数据集上进行了微调。

                                              来源:https://arxiv.org/abs/2203.02155

标签:法则,训练,人工智能,模型,arxiv,abs,https,org,对齐
From: https://www.cnblogs.com/jellyai/p/18609231

相关文章

  • 人工智能训练常用数据集对比:
    数据集名称类别数量图片数量标注类型适用任务官网链接ImageNet20,000+1,400万+图像分类图像分类、迁移学习官网CIFAR-101060,000图像分类小型图像分类官网CIFAR-10010060,000图像分类小型图像分类官网MNIST1070,000图像分类手写数字识......
  • 人工智能与大数据:迈向专业应用的高级教程
    在掌握了机器学习、深度学习及大数据处理的基础知识后,你可能希望进一步探索更复杂、更贴近真实场景的应用。本教程将带领你学习更加专业的技术与工具,包括高级深度学习技术、强化学习、分布式深度学习,以及大数据生态系统中的实时数据处理与工程化实践。第一部分:深度学习高级......
  • 分区对齐(Partition Alignment)是指磁盘分区表中的分区起始位置与硬盘的物理扇区(或磁盘
    分区对齐(PartitionAlignment)是指磁盘分区表中的分区起始位置与硬盘的物理扇区(或磁盘块)进行对齐的技术。具体来说,分区的起始位置会与磁盘的物理块大小对齐,通常是以512字节、4KB等为单位的。为什么分区需要对齐?提高性能:现代硬盘(尤其是固态硬盘,SSD)通常具有更大的扇区大小(例如4KB......
  • 人工智能大语言模型起源篇,低秩微调(LoRA)
    上一篇:《规模法则(ScalingLaw)与参数效率的提高》序言:您在找工作时会不会经常听到LoRA微调,这项技术的来源就是这里了。(12)Hu、Shen、Wallis、Allen-Zhu、Li、LWang、SWang和Chen于2021年发表的《LoRA:Low-RankAdaptationofLargeLanguageModels》,https://arxiv.org/a......
  • 人工智能大语言模型起源篇(二),从通用语言微调到驾驭LLM
    上一篇:《人工智能大语言模型起源篇(一),从哪里开始》(5)Howard和Ruder于2018年发表的《UniversalLanguageModelFine-tuningforTextClassification》,https://arxiv.org/abs/1801.06146这篇论文从历史的角度来看非常有意思。尽管它是在原始的《AttentionIsAllYouNeed......
  • 规模法则(Scaling Law)与参数效率的提高,
    上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《EfficientTransformers:ASurvey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《ASurveyonEfficientTraining......
  • 规模法则(Scaling Law)与参数效率的提高,
    上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《EfficientTransformers:ASurvey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《ASurveyonEfficientTrainingof......
  • 数据科学、数据分析、人工智能必备知识汇总-----多元函数微分学-----持续更新
    数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015文章目录1.偏导数2.高阶偏导数3.梯度4.雅可比矩阵5.Hessian矩阵6.极值判别法则1.偏导数之前讲的导数,是......
  • 人工智能作业:巧用深度学习分类猫狗图像
    自然语言处理作业:深入浅出,巧用深度学习分类猫狗图像资源概览助力你在自然语言处理的第一项作业中实现猫狗图像分类,让你深入领悟深度学习模型的奥秘。资源详情代码模块:本资源包含使用DNN、RNN和CNN模型构建猫狗图像分类任务的代码。数据集:请自行获取用于此任务的图......
  • 大小球你所不知道的预测方法:人工智能扫盘预测
    一、引言在竞技体育领域,预测比赛结果一直是众多球迷和分析师关注的焦点。本文将探讨一种基于人工智能(AI)的扫盘预测方法,该方法结合了深度学习、概率论和统计学原理,旨在为专业编程师和体育爱好者提供一种新颖的预测视角。以下内容将详细介绍算法原理、模型构建及预测过程。二......