GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读

时间：2023-12-25 21:00:50浏览次数：41

标签：Pre Training Language 训练模型 GPT 集上第二阶段第一阶段

背景

GPT-1 采用了两阶段训练的方式：

1. 第一阶段 pre-training，在海量文本上训练，无需label，根据前k-1个词预测第k个单词是什么，第一阶段的训练让模型拥有了很多的先验知识，模型具有非常强的泛化性

2. 第二阶段在特定任务上fine-tuning，让模型能适应不同的任务，提高模型在特定任务上的准确性

GPT-1 模型采用了Transformer Decoder 结构

训练过程

Unsupervised pre-training

在一个无监督预料集上训练，更加前k-1个词，预测第k个词是什么

Supervised fine-tuning

第二阶段就是在有label的数据集上微调，具体来说就是替换掉第一阶段的最后一层，在监督数据集上训练

此外作者还发现在第二阶段微调的时候，将语言建模作为微调的辅助目标有助于：

提高监督模型的泛化
加速收敛

不同训练任务的输入token序列

针对不同的任务，模型的输入token序列是有区别的。简单总结如下：

标签：Pre,Training,Language,训练,模型,GPT,集上,第二阶段,第一阶段
From： https://www.cnblogs.com/xumaomao/p/17926963.html

Windows Server 2025 简体中文版下载 (Inside Preview, updated Dec 2023) - 下一代 W
WindowsServer2025简体中文版下载(InsidePreview,updatedDec2023)-下一代Windows11ServerWindowsServerNext请访问原文链接：https://sysin.org/blog/windows-server-2025/，查看最新版。原创作品，转载请保留出处。作者主页：sysin.org我们知道WindowsServer2022......
一文掌握 Vue3 + Express 大文件分片上传、断点续传、秒传技巧！
前言在日常开发中，文件上传是常见的操作之一。文件上传技术使得用户可以方便地将本地文件上传到Web服务器上，这在许多场景下都是必需的，比如网盘上传、头像上传等。但是当我们需要上传比较大的文件的时候，容易碰到以下问题：上传时间比较久；中间一旦出错就需要重新上传；一般服务端会对文件......
Cost Calculator Builder PRO v3.1.46 已注册 – WordPress 插件
成本计算器生成器PROv3.1.46：WordPress插件全解析一、插件概述"成本计算器生成器PROv3.1.46"是一款强大的WordPress插件，专为需要创建报价、价格和项目估算表的用户设计。这款插件集成了众多高级功能，可帮助用户高效地管理他们的成本和价格，从而提供准确的报价估算。二、条......
AIKit v4.11.0 – WordPress AI 自动编写器、聊天机器人、写作助手和内容重定向器 / O
AIKitv4.11.0：WordPress的AI革命一、引言AIKitv4.11.0是一款为WordPress用户精心设计的强大插件，该插件集成了OpenAI的GPT-3技术，为用户提供了前所未有的AI写作和聊天机器人功能。此版本的推出，将WordPress的功能扩展到了全新的领域，利用人工智能技术，让网站内容创作变得更加简单......
@ConfigurationProperties(prefix = “xx.xx.xx“) 从配置文件中取值赋给类的属性
@ConfigurationProperties(prefix=“xx.xx.xx“)从配置文件中取值赋给类的属性@ConfigurationProperties(prefix=“xx.xx.xx”)该注解的作用是从配置文件中取值赋给类的属性，当然也可以为方法的变量赋值/***服务访问URL*/@Component@ConfigurationProperties(value......
An integrated method for predicting binding sites of protein-RNA interactions ba
会议地点：腾讯会议关键词：数据平衡；蛋白质-RNA相互作用作者：TongZhou,JieRong,YangLiu,WeikangGong,ChunhuaLi期刊：Bioinformatics年份：2022论文原文:https://academic.oup.com/bioinformatics/article-abstract/38/9/2452/6543608补充材料：主要内容问题：识别蛋白质-RNA相互作用......
题解 ABC334F【Christmas Present 2】
设\(f_i\)表示假设只有编号为\(1\simi\)的点，此时的答案。\(f_n\)即为所求。显然有：\[f_i=\min\limits_{i-k\lej<i}\{f_j+dis(s\toj+1\toj+2\to\cdots\toi)\}+dis(i\tos)\]当\(i\toi+1\)时，大括号内部全局增加\(dis(i\toi+1)\)，可以全局打标记后单调队列维护。......
FLAC: Federated Learning with Autoencoder Compression and Convergence Guarantee-
目的：减少通信量(成本)，例如VGGNet架构具有大约1.38亿个参数（4264Mb）方法：具有自动编码器压缩（AutoencoderCompression）且具有收敛保证（ConvergenceGuarantee）；利用冗余信息（theredundantinformation）和FL的迭代纠错能力（iterativeerror-correctingcapabilityofFL）来压缩client的模型，......
前端歌谣-第六十四课-express之静态资源
前言我是歌谣微信公众号关注前端小歌谣一起学习前端知识今天继续给大家讲解获取express获取静态资源的讲解案列constexpress=require("express")constapp=express()constIndexRouter=require("./router/indexRouter")//配置解析app.use(express.static("public"))app......
Unity最新一键清理Prefab中所有MissingComponent
因为老的API Properties.DeleteArrayElementAtIndex(propertyIndex);提示没权限修改，而unity提供了新的API GameObjectUtility.RemoveMonoBehavioursWithMissingScript(go);更方便移除丢失的组件，需要遍历物体下面所有子节点，否则无法移除子节点的丢失组件。于是重新整理了下......

GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读

背景

训练过程

Unsupervised pre-training

Supervised fine-tuning

不同训练任务的输入token序列

相关文章

赞助商

阅读排行