GPT-2 《Language Models are Unsupervised Multitask Learners》解读

时间：2023-12-25 22:14:14浏览次数：40

标签：pre Language Unsupervised Models 模型任务归一化 GPT norm

背景

GPT1采用了pre-train + fine-tuning训练方式，也就是说为了适应不同的训练任务，模型还是需要在特定任务的数据集上微调，仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题，通过 zero-shot，在迁移到其他任务上的时候不需要额外的标注数据，也不需要额外的模型训练。

训练数据改造

在 GPT-1 中，下游任务需要对不同任务的输入序列进行改造，在序列中加入了开始符、分隔符和结束符之类的特殊标识符，但是在 zero-shot 前提下，我们无法根据不同的下游任务去添加这些标识符，因为不进行额外的微调训练，模型在预测的时候根本不认识这些特殊标记。所以在 zero-shot 的设定下，不同任务的输入序列应该与训练时见到的文本长得一样，也就是以自然语言的形式去作为输入，例如下面两个任务的输入序列是这样改造的：

机器翻译任务：translate to french, { english text }, { french text }
阅读理解任务：answer the question, { document }, { question }, { answer }

GPT-2 的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。

模型结构

在模型结构方面，整个 GPT-2 的模型框架与 GPT-1 相同，只是做了几个地方的调整，这些调整更多的是被当作训练时的 trick，而不作为 GPT-2 的创新，具体为以下几点：

1. 后置层归一化（ post-norm ）改为前置层归一化（ pre-norm ）;

2. 在模型最后一个自注意力层之后，额外增加一个层归一化;

3. 调整参数的初始化方式，按残差层个数进行缩放，缩放比例为 1 : � ;

4. 输入序列的最大长度从 512 扩充到 1024;

post-norm 和 pre-norm差别

两者的主要区别在于，post-norm 将 transformer 中每一个 block 的层归一化放在了残差层之后，而 pre-norm 将层归一化放在了每个 block 的输入位置，如下图所示：

GPT-2 进行上述模型调整的主要原因在于，随着模型层数不断增加，梯度消失和梯度爆炸的风险越来越大，这些调整能够减少预训练过程中各层之间的方差变化，使梯度更加稳定。（参考https://zhuanlan.zhihu.com/p/640784855）

最终 GPT-2 提供了四种规模的模型：

参考资料

https://zhuanlan.zhihu.com/p/609716668

标签：pre,Language,Unsupervised,Models,模型,任务,归一化,GPT,norm
From： https://www.cnblogs.com/xumaomao/p/17927072.html

GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读
背景GPT-1采用了两阶段训练的方式：1. 第一阶段pre-training，在海量文本上训练，无需label，根据前k-1个词预测第k个单词是什么，第一阶段的训练让模型拥有了很多的先验知识，模型具有非常强的泛化性2.第二阶段在特定任务上fine-tuning，让模型能适应不同的任务，提高模型在特定任务上的准......
dfr之序列化常用字段、soruce、定制返回字段、多表关联反序列化、ModelSerializer的使
一、序列化类常用字段#除了CharField以外，还要很多别的---》表模型中models.CharField--->基本一一对应#如果跟表模型中对不上：你统一用CharField#重要：（后面说）ListFieldDictField字段字段构造方式BooleanFieldBooleanField()NullBooleanFieldNullB......
《OneLLM: One Framework to Align All Modalities with Language》论文学习
一、Abstract随着LLM的兴起，由于其强大的语言理解和推理能力，在学术和工业界中越来越受欢迎。LLM的进展也启发了研究人员将LLM作为多模态任务的接口，如视觉语言学习、音频和语音识别、视频理解等，因此多模态大语言模型(MultimodalLargeLanguageModel，MLLM)也引起了研究人员的关注......
大模型：高质量对话数据生成，Enhancing Chat Language Models by Scaling High-quality I
EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations论文地址1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致，是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作，目的在于生成高质量的指令微调......
《Learning Transferable Visual Models From Natural Language Supervision》论文学
一、Abstract最先进的计算机视觉系统被训练用以预测一组预定的固定目标类别。这种受限的监督方式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何新的视觉概念。因此，直接从关于图像的原始描述文本中学习是一个有希望的替代方法，它利用了更广泛的因特网监督来源。我......
BigdataAIML-ML-Models for machine learning Explore the ideas behind machine lear
最好的机器学习教程系列：https://developer.ibm.com/articles/cc-models-machine-learning/ByM.TimJones,PublishedDecember4,2017ModelsformachinelearningAlgorithmsusedinmachinelearningfallroughlyintothreecategories:supervised,unsupervised,and......
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Conv
InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]......
Open-World Object Manipulation using Pre-trained Vision-Language Models
概述提出MOO:ManipulationofOpen-WorldObjects用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novelobject，还支持手指、点击输入指令。问题机器人泛化到训练中没有见过或者操作过的object。perception-planning-control的pi......
Django添加models.py的ForeignKey数据迁移后找不到，各种报错
Django添加models.py的ForeignKey数据迁移后找不到，各种报错在创建DJango项目时候，已经实现文件列表功能，在添加用户绑定文件列表功能时候，添加user作为外键关联，添加后执行数据库迁移，一直报错找不到userid报错信息django.db.utils.OperationalError:nosuchcolumn:student_chec......
2020CVPR_High-Resolution Image Synthesis with Latent Diffusion Models
1.AutoEncoderAutoEncoder（自编码器）是一种无监督学习的神经网络模型，用于学习有效的数据表示。它的目标是将输入数据编码成一种潜在的、紧凑的表示形式，然后从这个表示中重构原始输入。自编码器由两部分组成：编码器（Encoder）和解码器（Decoder）。编码器（Encoder）：将输入数据映射到潜在表示空......

GPT-2 《Language Models are Unsupervised Multitask Learners》解读

背景

训练数据改造

模型结构

post-norm 和 pre-norm差别

参考资料

相关文章

赞助商

阅读排行