首页 > 其他分享 >GPT-2 《Language Models are Unsupervised Multitask Learners》解读

GPT-2 《Language Models are Unsupervised Multitask Learners》解读

时间:2023-12-25 22:14:14浏览次数:40  
标签:pre Language Unsupervised Models 模型 任务 归一化 GPT norm

背景

GPT1采用了pre-train + fine-tuning训练方式,也就是说为了适应不同的训练任务,模型还是需要在特定任务的数据集上微调,仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题,通过 zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练。

 

训练数据改造

在 GPT-1 中,下游任务需要对不同任务的输入序列进行改造,在序列中加入了开始符、分隔符和结束符之类的特殊标识符,但是在 zero-shot 前提下,我们无法根据不同的下游任务去添加这些标识符,因为不进行额外的微调训练,模型在预测的时候根本不认识这些特殊标记。所以在 zero-shot 的设定下,不同任务的输入序列应该与训练时见到的文本长得一样,也就是以自然语言的形式去作为输入,例如下面两个任务的输入序列是这样改造的:

机器翻译任务:translate to french, { english text }, { french text }
阅读理解任务:answer the question, { document }, { question }, { answer }
GPT-2 的核心思想就是,当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要在下游任务微调。  

模型结构

在模型结构方面,整个 GPT-2 的模型框架与 GPT-1 相同,只是做了几个地方的调整,这些调整更多的是被当作训练时的 trick,而不作为 GPT-2 的创新,具体为以下几点:

1. 后置层归一化( post-norm )改为前置层归一化( pre-norm );

2. 在模型最后一个自注意力层之后,额外增加一个层归一化;

3. 调整参数的初始化方式,按残差层个数进行缩放,缩放比例为 1 : � ;

4. 输入序列的最大长度从 512 扩充到 1024;

 post-norm 和 pre-norm差别

两者的主要区别在于,post-norm 将 transformer 中每一个 block 的层归一化放在了残差层之后,而 pre-norm 将层归一化放在了每个 block 的输入位置,如下图所示:

GPT-2 进行上述模型调整的主要原因在于,随着模型层数不断增加,梯度消失和梯度爆炸的风险越来越大,这些调整能够减少预训练过程中各层之间的方差变化,使梯度更加稳定。(参考https://zhuanlan.zhihu.com/p/640784855

最终 GPT-2 提供了四种规模的模型:

 

参考资料

https://zhuanlan.zhihu.com/p/609716668

 

标签:pre,Language,Unsupervised,Models,模型,任务,归一化,GPT,norm
From: https://www.cnblogs.com/xumaomao/p/17927072.html

相关文章

  • GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读
    背景GPT-1采用了两阶段训练的方式:1. 第一阶段pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性2.第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提高模型在特定任务上的准......
  • dfr之序列化常用字段、soruce、定制返回字段、多表关联反序列化、ModelSerializer的使
    一、序列化类常用字段#除了CharField以外,还要很多别的---》表模型中models.CharField--->基本一一对应#如果跟表模型中对不上:你统一用CharField#重要:(后面说)ListFieldDictField字段字段构造方式BooleanFieldBooleanField()NullBooleanFieldNullB......
  • 《OneLLM: One Framework to Align All Modalities with Language》论文学习
    一、Abstract随着LLM的兴起,由于其强大的语言理解和推理能力,在学术和工业界中越来越受欢迎。LLM的进展也启发了研究人员将LLM作为多模态任务的接口,如视觉语言学习、音频和语音识别、视频理解等,因此多模态大语言模型(MultimodalLargeLanguageModel,MLLM)也引起了研究人员的关注......
  • 大模型:高质量对话数据生成,Enhancing Chat Language Models by Scaling High-quality I
    EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations论文地址1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致,是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作,目的在于生成高质量的指令微调......
  • 《Learning Transferable Visual Models From Natural Language Supervision》论文学
    一、Abstract最先进的计算机视觉系统被训练用以预测一组预定的固定目标类别。这种受限的监督方式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何新的视觉概念。因此,直接从关于图像的原始描述文本中学习是一个有希望的替代方法,它利用了更广泛的因特网监督来源。我......
  • BigdataAIML-ML-Models for machine learning Explore the ideas behind machine lear
    最好的机器学习教程系列:https://developer.ibm.com/articles/cc-models-machine-learning/ByM.TimJones,PublishedDecember4,2017ModelsformachinelearningAlgorithmsusedinmachinelearningfallroughlyintothreecategories:supervised,unsupervised,and......
  • InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Conv
    InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]......
  • Open-World Object Manipulation using Pre-trained Vision-Language Models
    概述提出MOO:ManipulationofOpen-WorldObjects用预训练的VLM在图像中标记instruction的object的坐标,传入policy进行控制,可以zero-shot泛化到novelobject,还支持手指、点击输入指令。问题机器人泛化到训练中没有见过或者操作过的object。perception-planning-control的pi......
  • Django添加models.py的ForeignKey数据迁移后找不到,各种报错
    Django添加models.py的ForeignKey数据迁移后找不到,各种报错在创建DJango项目时候,已经实现文件列表功能,在添加用户绑定文件列表功能时候,添加user作为外键关联,添加后执行数据库迁移,一直报错找不到userid报错信息django.db.utils.OperationalError:nosuchcolumn:student_chec......
  • 2020CVPR_High-Resolution Image Synthesis with Latent Diffusion Models
    1.AutoEncoderAutoEncoder(自编码器)是一种无监督学习的神经网络模型,用于学习有效的数据表示。它的目标是将输入数据编码成一种潜在的、紧凑的表示形式,然后从这个表示中重构原始输入。自编码器由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器(Encoder):将输入数据映射到潜在表示空......