GPT-2论文阅读

时间：2023-04-03 13:07:04浏览次数：50

标签：tokenizer 论文 negative 31591 print 阅读 GPT 数据 encode

简介

题目：Language Models are Unsupervised Multitask Learners
翻译：语言模型是无监督多任务学习者
点击下载pdf 概要：以往的自然语言处理任务：问答、翻译、阅读理解、总结，需要使用特定的有标签数据集进行监督训练。本文仅仅使用从网页搜集的数据集WebText，而没有使用任何监督数据，15亿参数的GPT-2直接在8个数据集上进行测试，7个取得了最先进水平。

介绍

以往的自然语言处理任务：问答、翻译、阅读理解、总结，需要使用特定的有标签数据集进行监督训练。本文仅仅使用从网页搜集的数据集WebText，而没有使用任何监督数据，15亿参数的GPT-2直接在8个数据集上进行测试，7个取得了最先进水平。
已有的机器学习系统像是专家，在特定数据集、特定标签训练后具备特定能力。本文造了一个更普遍的模型，无需在有标签数据集训练就可以胜任多种任务。多任务无需修改任何参数、网络结构，直接以文本形式构造，例如翻译任务（translate to french, english text, french text）、阅读理解任务（answer the question, document,question, answer）。

数据集

从Reddit爬取所有出站链接，Reddit这个网站本质来说是个链接的集中处，是你能在网上找好东西的关键。所以这里的链接是经过人类认可的有趣的有价值的链接。
最终从网页爬取的数据集WebText，包含4500万链接的文本的子集。从HTML网页提取文本使用的是Dragnet 和 Newspapercontent extractors

输入表征

一个语言模型应该能够理解任何字符串，现在的语言模型会有一些预处理过程：小写化、tokenization，字符串中超出词表的词汇就无法理解。
我们为空格添加了一个例外，这大大提高了压缩效率，同时只跨多个vocab标记添加了最小的单词碎片。
这种输入表示允许我们将字级lm的经验好处与字节级方法的一般性结合起来。由于我们的方法可以为任何Unicode字符串分配概率，这允许我们在任何数据集上计算lm，而不管预处理、标记化或词汇表大小。

from transformers import GPT2LMHeadModel, GPT2Tokenizer
print(tokenizer.encode("negative"))  # [31591]  注 字典为"negative": 31591,
print(tokenizer.encode("negativeY"))  # [31591, 56]  注 字典为"negative": 31591,
print(tokenizer.encode(" negative"))  # [4633]  注 "Ġnegative": 4633,
print(tokenizer.encode("you negative"))  # [5832, 4633]
print(tokenizer.encode("Knegative"))  # [42, 31591]

模型

与Transformer、gpt1有所不同，Layer Normalization位置靠前。残差连接权重设置为 $GPT-2论文阅读_数据集$ ，N是残差连接层数。

GPT-2论文阅读_python_02

参数量

GPT-2论文阅读_字符串_03

实验

和gpt-1测试数据集基本一样，gpt-2能zero-shot，但是效果没有达到惊艳的程度。

标签：tokenizer,论文,negative,31591,print,阅读,GPT,数据,encode
From： https://blog.51cto.com/u_14502809/6166058

【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
【论文速递】ICLR2018-用于小样本语义分割的条件网络【论文原文】：CONDITIONALNETWORKSFORFEW-SHOTSEMANTICSEGMENTATION（Workshoptrack-ICLR2018）【作者信息】：KateRakellyEvanShelhamerTrevorDarrellAlexeiEfrosSergeyLevine获取地址：https://openreview.net/pdf?......
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性
【论文速递】MMM2020-电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能【论文原文】：ANewLocalTransformationModuleforFew-shotSegmentation【作者信息】：YuweiYang,FanmanMeng,HongliangLi,QingboWu,XiaolongXuandShuaiChen获取地址：https://arxi......
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018-加州伯克利大学借助引导网络实现快速、准确的小样本分割【论文原文】：Few-ShotSegmentationPropagationwithGuidedNetworks【作者信息】：KateRakelly∗EvanShelhamer∗TrevorDarrellAlexeiEfrosSergeyLevine获取地址：https://arxiv.org/pdf/180......
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
【论文速递】WACV2023-循环相似注意力的小样本医学图像分割【论文原文】：Few-shotMedicalImageSegmentationwithCycle-resemblanceAttention获取地址：https://arxiv.org/pdf/2212.03967.pdf博主关键词：小样本学习，语义分割，自监督，原型摘要：近年来，由于医学影像应用需求的不断提高......
【论文速递】WACV2023 - CellTranspose:用于细胞实例分割的小样本域自适应
【论文速递】WACV2023-CellTranspose:用于细胞实例分割的小样本域自适应【论文原文】：CellTranspose:Few-shotDomainAdaptationforCellularInstanceSegmentation获取地址：https://openaccess.thecvf.com/content/WACV2023/papers/Keaton_CellTranspose_Few-Shot_Domain_Adap......
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
【论文速递】PR2023-基于自正则原型网络的小样本语义分割【论文原文】：Self-RegularizedPrototypicalNetworkforFew-ShotSemanticSegmentation获取地址：https://arxiv.org/pdf/2210.16829.pdf博主关键词：小样本学习，语义分割，自正则，原型网络摘要：用于图像语义分割的深度cnn通常......
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D
【论文原文】：PETR:用于多视图3D对象检测的位置嵌入变换论文：https://arxiv.org/abs/2203.05625代码：https://github.com/megvii-research/PETR博主关键词：小样本学习，语义分割，图注意力网络，互监督，目标检测，三维视觉摘要在本文中，我们开发了用于多视图3D对象检测的位置嵌入变换(PET......
221114-华中科技大学学位论文利用Pandoc实现LaTex转Word
LaTex快乐地编辑排版好论文，然后学校系统提交还是要Word文档TT利用Pandoc将.tex直接转换成.docxpandochust_main.tex-ohust_main.docx-wdocx\--reference-dochust_temp.docx\--filterpandoc-crossref\--bibliography=main_ref.bib\--ci......
论文阅读_近端策略优化_PPO
论文信息name_en:ProximalPolicyOptimizationAlgorithmsname_ch:近端策略优化算法paper_addr:http://arxiv.org/abs/1707.06347date_publish:2017-08-28if:IF8.665Q1B1TopEIauthor:JohnSchulmancitation:9685读后感PPO近端策略优化是一种强化学习算法，具体是......
GPT-4杀进网络安全，攻击面管理今后该怎么做？
从GPT-4的正式发布到现在还不到半个月，科技圈热闹得像过年一样，尤其是OpenAI的金主微软爸爸，感觉它三天两头地在做产品升级发布会——Office全家桶、Copilot X、Bing、Edge…… 一连串融合了AI技术的产品组合拳打得让人应接不暇，频频在行业内掀起浪潮。这不，凌......

GPT-2论文阅读

简介

介绍

数据集

输入表征

模型

实验

相关文章

赞助商

阅读排行