GPT-3《Language Models are Few-Shot Learners》解读

时间：2023-12-26 16:33:06浏览次数：46

标签：Shot Language Models 复杂度 attention token sparse GPT shot

GPT-3 和 GPT-2差别

1. 效果上，超出 GPT-2 非常多，能生成人类难以区分的新闻文章；
2. 主推 few-shot，相比于 GPT-2 的 zero-shot，具有很强的创新性；
3. 模型结构略微变化，采用 sparse attention 模块；
4. 海量训练语料 45TB（清洗后 570GB），相比于 GPT-2 的 40GB；
5. 海量模型参数，最大模型为 1750 亿，GPT-2 最大为 15 亿参数；

sparse attention

sparse attention 与传统 self-attention（称为 dense attention）的区别在于：

dense attention：每个 token 之间两两计算 attention，复杂度 O(n²)
sparse attention：每个 token 只与其他 token 的一个子集计算 attention，复杂度 O(n*logn)

具体来说，sparse attention 除了相对距离不超过 k 以及相对距离为 k，2k，3k，... 的 token，其他所有 token 的注意力都设为 0，如下图所示：

使用 sparse attention 的好处主要有以下两点：

1. 减少注意力层的计算复杂度，节约显存和耗时，从而能够处理更长的输入序列；

2. 具有“局部紧密相关和远程稀疏相关”的特性，对于距离较近的上下文关注更多，对于距离较远的上下文关注较少；

few-shot 相比于 zero-shot 为什么更有效？

在few-shot给的几个样例在新任务时会作为条件输入，相当于模型拥有了该任务更多的先验知识

参考资料

https://zhuanlan.zhihu.com/p/609716668

标签：Shot,Language,Models,复杂度,attention,token,sparse,GPT,shot
From： https://www.cnblogs.com/xumaomao/p/17928433.html

GPT-2 《Language Models are Unsupervised Multitask Learners》解读
背景GPT1采用了pre-train+fine-tuning训练方式，也就是说为了适应不同的训练任务，模型还是需要在特定任务的数据集上微调，仍然存在较多人工干预的成本。GPT-2想彻底解决这个问题，通过zero-shot，在迁移到其他任务上的时候不需要额外的标注数据，也不需要额外的模型训练。训练数据......
GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读
背景GPT-1采用了两阶段训练的方式：1. 第一阶段pre-training，在海量文本上训练，无需label，根据前k-1个词预测第k个单词是什么，第一阶段的训练让模型拥有了很多的先验知识，模型具有非常强的泛化性2.第二阶段在特定任务上fine-tuning，让模型能适应不同的任务，提高模型在特定任务上的准......
dfr之序列化常用字段、soruce、定制返回字段、多表关联反序列化、ModelSerializer的使
一、序列化类常用字段#除了CharField以外，还要很多别的---》表模型中models.CharField--->基本一一对应#如果跟表模型中对不上：你统一用CharField#重要：（后面说）ListFieldDictField字段字段构造方式BooleanFieldBooleanField()NullBooleanFieldNullB......
《OneLLM: One Framework to Align All Modalities with Language》论文学习
一、Abstract随着LLM的兴起，由于其强大的语言理解和推理能力，在学术和工业界中越来越受欢迎。LLM的进展也启发了研究人员将LLM作为多模态任务的接口，如视觉语言学习、音频和语音识别、视频理解等，因此多模态大语言模型(MultimodalLargeLanguageModel，MLLM)也引起了研究人员的关注......
大模型：高质量对话数据生成，Enhancing Chat Language Models by Scaling High-quality I
EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations论文地址1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致，是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作，目的在于生成高质量的指令微调......
《Learning Transferable Visual Models From Natural Language Supervision》论文学
一、Abstract最先进的计算机视觉系统被训练用以预测一组预定的固定目标类别。这种受限的监督方式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何新的视觉概念。因此，直接从关于图像的原始描述文本中学习是一个有希望的替代方法，它利用了更广泛的因特网监督来源。我......
BigdataAIML-ML-Models for machine learning Explore the ideas behind machine lear
最好的机器学习教程系列：https://developer.ibm.com/articles/cc-models-machine-learning/ByM.TimJones,PublishedDecember4,2017ModelsformachinelearningAlgorithmsusedinmachinelearningfallroughlyintothreecategories:supervised,unsupervised,and......
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Conv
InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]......
Open-World Object Manipulation using Pre-trained Vision-Language Models
概述提出MOO:ManipulationofOpen-WorldObjects用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novelobject，还支持手指、点击输入指令。问题机器人泛化到训练中没有见过或者操作过的object。perception-planning-control的pi......
backblaze b2通过cli下载大文件快照snapshots
按照官方的常规方式，是先在cli下查看buckets list-buckets找到b2snapshots的名称，然后通过download-file下载b2download-file--thread1b2://snapshots目录/备份文件名.注意下载大文件，最好是把现成设置成1-----------------------以上是常规方法，但是我下载了几......

GPT-3《Language Models are Few-Shot Learners》解读

GPT-3 和 GPT-2差别

sparse attention

few-shot 相比于 zero-shot 为什么更有效？

参考资料

相关文章

赞助商

阅读排行