首页 > 其他分享 >GPT:Generative Pre-Training

GPT:Generative Pre-Training

时间:2023-06-14 19:33:51浏览次数:40  
标签:Training 训练 ELMo 模型 Transformer Generative GPT 向量


1. 概述

随着深度学习在NLP领域的发展,产生很多深度网络模型用于求解各类的NLP问题,从word2vec词向量工具的提出后,预训练的词向量成了众多NLP深度模型中的重要组成部分。然而传统的word2vec生成的词向量都是上下文无关的,其生成的词向量式固定,不会随着上下文的改变而改变,这种固定的词向量无法解决一词多义的问题。比如“bank”这个词,既可以表示“河岸”,也可以表示“银行”。Embeddings from Language Models(ELMo)[1]是2018年提出的一种基于上下文的预训练模型,通过大量语料学习到每个词的一般性embedding形式,学习到与上下文无关的语义向量表示,以此实现对多义词的建模。

Generative Pre-Training(GPT)[2]也是在2018年提出的实现对多义词建模的语义模型,与ELMo相同的是,在GPT中,也是采用了两阶段的过程,第一阶段是利用无监督的方式对语言模型进行预训练,第二阶段通过监督的方式在具体语言任务上进行Fine-tuning。不同的是在GPT中采用的特征提取算法是transformer,且是单向的语言模型,而在ELMo中采用的双向的LSTM算法。

2. 算法原理

2.1. GPT的基本原理

与ELMo模型的训练一样,在GPT的训练过程中采用两阶段的过程,第一个阶段是GPT模型的预训练,得到与上下文无关的语义向量的表示,第二阶段在具体任务上Fine-tuning,以解决具体的下游任务。具体的两阶段过程可由下图表示:

GPT:Generative Pre-Training_机器学习

2.2. 第一阶段——GPT模型预训练

2.2.1. 与ELMo模型的对比

GPT模型的预训练与ELMo模型的预训练的主要不同集中在两点:

  1. GPT中采用的是Transformer作为语义特征的提取,而ELMo中采用的是LSTM;
  2. GPT中采用的是单向的语言模型,即通过上文预测当前的词,而ELMo中采用的是双向的语言模型,即上下文预测当前的词。

GPT模型与ELMo模型的对比可以由下图表示:

GPT:Generative Pre-Training_语言模型_02

完整的Transformer是一个典型的Seq2seq的结构,包括了Encoder和Decoder两个部分,如下图所示:

GPT:Generative Pre-Training_机器学习_03

在GPT模型中使用的是Transformer结构中的Decoder结构,如上图中的右半部分,并对上述的Decoder部分进行了一些改动,原本的Decoder中包含了两个Multi-Head Attention结构,分别为Masked Multi-Head Attention和Multi-Head Attention,而在GPT中只保留了Mask Multi-Head Attention。

Q1:GPT采用的是单向的语言模型?
A1:在GPT中采用了Masked Multi-Head Attention,而Masked Multi-Head Attention只利用上文对当前位置的值预测,所以GPT被认为是单向的语言模型。

Q2:GPT中Position Encoding的操作?
A2:在Transformer中,由于Self-Attention无法捕获文本的位置信息,因此需要对输入的词的Embedding加入Position Encoding,在Transformer中采用了sin和cos的计算方法,而在GPT中,不再使用正弦和余弦的位置编码,而是采用与词向量相似的随机初始化,并在训练中进行更新。

2.2.2. GPT模型的预训练

对于GPT模型的预训练,同样采用的是语言模型,即通过上文预测当前的词。假设词的集合为GPT:Generative Pre-Training_词向量_04,语言模型的目标函数为:

GPT:Generative Pre-Training_深度学习_05

其中,GPT:Generative Pre-Training_机器学习_06是窗口的大小。此时需要求此目标函数的最大值。在GPT模型的预训练中,采用的基本特征提取模块是Transformer中的Decoder结构,模型的输入向量GPT:Generative Pre-Training_语言模型_07为:

GPT:Generative Pre-Training_词向量_08

其中,GPT:Generative Pre-Training_语言模型_09表示的当前词GPT:Generative Pre-Training_深度学习_10的以GPT:Generative Pre-Training_机器学习_06为窗口的上文,GPT:Generative Pre-Training_建模_12表示的词向量,GPT:Generative Pre-Training_深度学习_13表示的是位置向量,通过上文的词向量和位置向量的和得到当前词的输入向量。经过多个Transformer结构,得到第GPT:Generative Pre-Training_语言模型_14层的输出:

GPT:Generative Pre-Training_建模_15

由于是decoder结构,我们希望得到当前词的位置是词GPT:Generative Pre-Training_深度学习_10的概率,即为:

GPT:Generative Pre-Training_词向量_17

以此,我们便可以得到预训练的GPT模型,同时GPT:Generative Pre-Training_建模_12即为训练好的词向量。

2.3 第二阶段——Fine-tuning

2.3.1. Fine-tuning具体计算

在GPT模型的下游任务中,需要根据GPT的网络结构,对下游任务做适当的修改,具体如下图所示:

GPT:Generative Pre-Training_词向量_19

假设带有标签的数据集为GPT:Generative Pre-Training_语言模型_20,其中,词的序列为GPT:Generative Pre-Training_机器学习_21,标签为GPT:Generative Pre-Training_深度学习_22。实际上就是通过标签GPT:Generative Pre-Training_深度学习_22的上文预测当前词是GPT:Generative Pre-Training_深度学习_22,假设通过上述第一阶段,得到最后一个词的输出GPT:Generative Pre-Training_词向量_25,此时需要预测标签GPT:Generative Pre-Training_深度学习_22,即为:

GPT:Generative Pre-Training_语言模型_27

此时,目标函数为:

GPT:Generative Pre-Training_建模_28

此时需要使得GPT:Generative Pre-Training_深度学习_29取得极大值,为了能够对原先的网络结构fine-tuning,对具体任务可结合目标函数GPT:Generative Pre-Training_语言模型_30GPT:Generative Pre-Training_深度学习_29

GPT:Generative Pre-Training_深度学习_32

2.3.2. 不同的下游任务构造

对于不同的下游任务,在Fine-tuning的过程中,需要不同的改造方法以适应GPT的模型结构,如上图所示:

  1. 对于分类任务,只需要在特征序列前后分别加上开始(Start)和结束(Extract)标记;
  2. 对于句子关系判断任务,如Entailment,除了开始和结束标记,在两个句子中间还需要加上分隔符(Delim);
  3. 对文本相似性判断任务,与句子关系判断任务相似,不同的是需要对两个句子的位置做变换;
  4. 对于多项选择任务,则需要根据Context与不同的Answer组合出不同的句子对,分别输入到模型中,句子对的形式与句子关系判断一致。

3. 总结

GPT模型中通过采用Transformer结构中的Decoder作为语义模型的提取模型,可以显著提升文本语义的学习能力,同时两阶段的学习方法对于可以方便的将GPT应用在不同的任务中。

参考文献

[1] Peters M , Neumann M , Iyyer M , et al. Deep Contextualized Word Representations[J]. 2018.

[2] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.


标签:Training,训练,ELMo,模型,Transformer,Generative,GPT,向量
From: https://blog.51cto.com/u_16161414/6480216

相关文章

  • 2023-06-14 记录一下vue组件如何调用App.vue里面的方法(代码来至chatGpt)
    可以通过在子组件中使用$emit方法来触发App.vue中的方法。具体步骤如下:在App.vue中定义一个方法<script>exportdefault{methods:{appMethod(){console.log('调用了App.vue中的方法')}}}</script>在子组件中使用$emit方法触发该方......
  • OpenAI发布ChatGPT函数调用和API更新
    2023年6月13日,OpenAI针对开发者调用的API做了重大更新,包括更易操控的API模型、函数调用功能、更长的上下文和更低的价格。在今年早些时候发布gpt-3.5-turbo,gpt-4在短短几个月内,已经看到开发人员在这些模型之上构建了令人难以置信的应用程序。今天,我们将跟进一些令人兴奋的更新:Cha......
  • OpenAI发布ChatGPT函数调用和API更新
    2023年6月13日,OpenAI针对开发者调用的API做了重大更新,包括更易操控的API模型、函数调用功能、更长的上下文和更低的价格。在今年早些时候发布gpt-3.5-turbo,gpt-4在短短几个月内,已经看到开发人员在这些模型之上构建了令人难以置信的应用程序。今天,我们将跟进一些令人兴奋的更新:......
  • 【园子资深博主直播】 冰蓝老师《ChatGPT 初探》
    AI对经济增长、经济周期、经济形态、社会就业都有着非常巨大的影响,ChatGPT4.0发布后,燃起了我们每一个开发人的激情和恐惧,但各路自媒体信息杂乱无序,缺少非常系统性的ChatGPT原理解读。此次,我们特邀园子资深博主冰蓝老师,通过直播给大家好好讲一讲“ChatGPT的特点、原理,以及怎样从Ch......
  • GPT-Gstreamer操作调查
    gstreamer是一个开源的多媒体框架,可以用来实现音视频的编解码、处理、播放和转码等功能。本文将介绍如何用gstreamer完成多码率视频转换与生成、音视频编解码的基本步骤和原理。多码率视频转换与生成多码率视频转换与生成是一种常见的视频处理需求,它可以根据不同的网络环境和设......
  • 自己动手做chatGPT:向量的概念和相关操作
    chatGPT的横空出世给人工智能注入一针强心剂,它是历史上以最短时间达到一亿用户的应用。chatGPT的能力相当惊人,它可以用相当流利的语言和人对话,同时能够对用户提出的问题给出相当顺畅的答案。它的出现已经给各个行业带来不小冲击,据说有很多公司已经使用chatGPT来替代人工,于是引起了......
  • 10个帮你避免被解雇的ChatGPT提示
    随着人工智能技术的不断发展,现在已经有相当数量的工作面临被自动化和智能化的风险。根据一项研究,AI可能替代相当于3亿全职工作。为了避免被替代,我们需要抢占主动,采取措施提高自己的市场价值。以下是10个ChatGPT-知否AI问答提示可以帮助你避免被解雇:1.简化社交媒体发布随着社交媒体......
  • 第二节:ChatGPT提示词Prompts的设计技巧
    一.        二.        三.         !作       者:Yaopengfei(姚鹏飞)博客地址:http://www.cnblogs.com/yaopengfei/声     明1:如有错误,欢迎讨论,请勿谩骂^_^。声     明2:原创博客请在转载......
  • 5、题目:Training in Creative Problem Solving: Effects on Ideation and Problem Fin
    期刊信息(1)作者:GeorgeB.Graen,StephenG.Graen(2)期刊:OrganizationalBehaviorandHumanPerformance(3)DOI:10.1016/0030-5073(82)90233-1(4)ISSN:0030-5073   研究背景创造力训练作为工业培训的一个子集,普遍面临着工业培训研究的许多问题,也面临着一些独特的问题。......
  • 文心一言 VS 讯飞星火 VS chatgpt (40)-- 算法导论5.4 4题
    四、一次聚会需要邀请多少人,才能让其中3人的生日很可能相同?文心一言:为了解决这个问题,我们需要先计算出所有可能的生日组合数,然后计算出其中生日相同的组合数。已知需要邀请的人数为:23人根据组合数公式,可计算出所有可能的生日组合数:2.58520167*10^{22}根据生日相同的组合......