首页 > 其他分享 >GPT-1论文阅读

GPT-1论文阅读

时间:2023-04-03 13:07:14浏览次数:55  
标签:训练 标签 模型 论文 token 给定 阅读 GPT 文本


简介

题目:Improving Language Understanding by Generative Pre-Training
翻译:改善语言理解通过生成式预训练
点击下载pdf 概要:
自然语言理解包含很多问题:文本蕴含、问答、语义相似度评估、文献分类。大量的无标签文本语料库是丰富的,打标签语料库是匮乏的,分别去训练模型很难有良好效果。该论文证明了:先使用无标签语料库进行生成式预训练,再针对不同任务做微调,这样效果很好。

介绍

从无标记文本中学习文本表征是有意义的,就像之前的词嵌入预训练一样。现有的预训练方法存在的问题是:模型需要根据任务调整、复杂的学习方法、需辅助目标函数。总结:麻烦。
本文探索一种半监督方法用于语言理解任务:无监督预训练+有监督微调。
目标是学习一种普遍的表征,只需要很少的改变就可用于宽泛范围的任务。
模型是Transformer,对比RNN,Transformer优点是可建立文本的长依赖关系,对不同任务更加鲁棒。
验证实验使用四种任务:自然语言推断、问答、语义相似、文本分类

无监督预训练

训练数据是无标签的语料token:

GPT-1论文阅读_相似度

训练目标函数是最大化下面的式子

GPT-1论文阅读_论文阅读_02


这里的目标可以理解为:根据前k个语料token,预测下一个token。

例如,给定U=“今天天气真好”,模型需要有如下预测能力:

给定句子“今”,下一个预测“天”

给定句子“今天”,下一个预测“天”

给定句子“今天天”,下一个预测“气”

给定句子“今天天气”,下一个预测“真“

给定句子“今天天气真”,下一个预测“好”目标函数中的GPT-1论文阅读_相似度_03是模型的参数,所以这个式子就是找到最合适的GPT-1论文阅读_相似度_03,让GPT-1论文阅读_机器学习_05最大。训练方法是随机梯度下降。

模型选择的是多层Transformer解码器,

模型整体计算流程如下:

GPT-1论文阅读_生成式_06


GPT-1论文阅读_机器学习_07是token embedding,把词映射为向量的矩阵。

GPT-1论文阅读_深度学习_08是position embedding,把位置映射为向量的矩阵。

有监督微调

使用有标签的数据集C,其中每个实例有序列输入tokens:GPT-1论文阅读_深度学习_09,对应的标签y。GPT-1论文阅读_生成式_10是transformer_block最后一层的输出,额外增加一个新的线性层GPT-1论文阅读_生成式_11,然后使用softmax分类得到最终结果。

GPT-1论文阅读_深度学习_12


微调阶段的目标是最大化:

GPT-1论文阅读_论文阅读_13


实际中发现使用混合类型的目标函数效果更好:(1)让模型进一步学习无监督预测的能力(2)帮助收敛

GPT-1论文阅读_机器学习_14


token设计如下图所示:

GPT-1论文阅读_论文阅读_15


标签:训练,标签,模型,论文,token,给定,阅读,GPT,文本
From: https://blog.51cto.com/u_14502809/6166056

相关文章

  • GPT-2论文阅读
    简介题目:LanguageModelsareUnsupervisedMultitaskLearners翻译:语言模型是无监督多任务学习者点击下载pdf概要:以往的自然语言处理任务:问答、翻译、阅读理解、总结,需要使用特定的有标签数据集进行监督训练。本文仅仅使用从网页搜集的数据集WebText,而没有使用任何监督数据,15亿......
  • 【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
    【论文速递】ICLR2018-用于小样本语义分割的条件网络【论文原文】:CONDITIONALNETWORKSFORFEW-SHOTSEMANTICSEGMENTATION(Workshoptrack-ICLR2018)【作者信息】:KateRakellyEvanShelhamerTrevorDarrellAlexeiEfrosSergeyLevine获取地址:https://openreview.net/pdf?......
  • 【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性
    【论文速递】MMM2020-电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能【论文原文】:ANewLocalTransformationModuleforFew-shotSegmentation【作者信息】:YuweiYang,FanmanMeng,HongliangLi,QingboWu,XiaolongXuandShuaiChen获取地址:https://arxi......
  • 【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
    【论文速递】Arxiv2018-加州伯克利大学借助引导网络实现快速、准确的小样本分割【论文原文】:Few-ShotSegmentationPropagationwithGuidedNetworks【作者信息】:KateRakelly∗EvanShelhamer∗TrevorDarrellAlexeiEfrosSergeyLevine获取地址:https://arxiv.org/pdf/180......
  • 【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
    【论文速递】WACV2023-循环相似注意力的小样本医学图像分割【论文原文】:Few-shotMedicalImageSegmentationwithCycle-resemblanceAttention获取地址:https://arxiv.org/pdf/2212.03967.pdf博主关键词:小样本学习,语义分割,自监督,原型摘要:近年来,由于医学影像应用需求的不断提高......
  • 【论文速递】WACV2023 - CellTranspose:用于细胞实例分割的小样本域自适应
    【论文速递】WACV2023-CellTranspose:用于细胞实例分割的小样本域自适应【论文原文】:CellTranspose:Few-shotDomainAdaptationforCellularInstanceSegmentation获取地址:https://openaccess.thecvf.com/content/WACV2023/papers/Keaton_CellTranspose_Few-Shot_Domain_Adap......
  • 【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
    【论文速递】PR2023-基于自正则原型网络的小样本语义分割【论文原文】:Self-RegularizedPrototypicalNetworkforFew-ShotSemanticSegmentation获取地址:https://arxiv.org/pdf/2210.16829.pdf博主关键词:小样本学习,语义分割,自正则,原型网络摘要:用于图像语义分割的深度cnn通常......
  • 【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D
    【论文原文】:PETR:用于多视图3D对象检测的位置嵌入变换论文:https://arxiv.org/abs/2203.05625代码:https://github.com/megvii-research/PETR博主关键词:小样本学习,语义分割,图注意力网络,互监督,目标检测,三维视觉摘要在本文中,我们开发了用于多视图3D对象检测的位置嵌入变换(PET......
  • 221114-华中科技大学学位论文利用Pandoc实现LaTex转Word
    LaTex快乐地编辑排版好论文,然后学校系统提交还是要Word文档TT利用Pandoc将.tex直接转换成.docxpandochust_main.tex-ohust_main.docx-wdocx\--reference-dochust_temp.docx\--filterpandoc-crossref\--bibliography=main_ref.bib\--ci......
  • 论文阅读_近端策略优化_PPO
    论文信息name_en:ProximalPolicyOptimizationAlgorithmsname_ch:近端策略优化算法paper_addr:http://arxiv.org/abs/1707.06347date_publish:2017-08-28if:IF8.665Q1B1TopEIauthor:JohnSchulmancitation:9685读后感PPO近端策略优化是一种强化学习算法,具体是......