GPT3大型语言模型的能力

时间：2024-01-16 19:11:11浏览次数：30

标签：pre shot 语言 GPT3 模型任务 model

大模型的能力

原文：arxiv.org/pdf/2005.14165.pdf

wiki：第二章：大模型的能力 · datawhalechina/so-large-lm Wiki (github.com)

GPT3论文阅读review

（EE290里学到的读论文的方法） Language Models are Few-Shot Learners

1.motivations

评估GPT3在NLP任务上的表现、能力（以及需要怎样的输入）→泛化能力好！有些任务表现非常好，有些则一般。

2.proposed solution

对语言模型研究的基础任务：句法解析、预测最后一个词、常识推理、问答（分为问题长短以及生成回答长短）、翻译、算术、生成新闻标题、Novel task。最后一个任务包含生成新词和纠正语法错误，的确不知道应该如何翻译Novel，也许是新奇的或者新颖的。部分任务GPT3采用one-shot和zero-shot对比，并和该领域中表现最好的模型对比评估效果。这里选用了多种任务，比较全面的展现了模型在重要任务上的能力。

3.evaluation

Perplexity Accuracy Training Petaflop/s-days Validation Loss BLEU SuperGLUE Score 评价指标如何确定？领域里比较经典的评价指标毫无疑问很重要，另外则是能体现模型优势的评价指标。

4.analysis of the identified problem, idea, evaluation

翻译任务中GPT3没有进行监督学习却表现出更好的性能。此外对多个生成的回答的评价标准有三个，很有意思，有未归一化、长度归一化和频率归一化概率。我想，会出现这些细分概率一定有它真实的应用价值，或者说启发式方法自有其局限性。比如正文里说的对短问题、长度相同的回答和常见回答的处理缺陷。这可能就是工程折衷的表现，有其困难之处也有其魅力——平衡的艺术。

5.future directions

（1）从人身上习得目标功能，并在更新权重时加上强化学习，或添加额外的模态以获得对世界的更好建模。从语言模型变成多模态模型，的确是现在的发展方向。（2）构建GPT3规模的模型或零样本、少样本提示的双向模型（3）提高预训练采样效率他们是如何提出未来方向的呢？依据是什么，值得思考。

6.questions left with

（1）在文本合成和其他NLP任务上有显著的弱势。（2）各种结构和算法上的局限（3）陷入预训练目标的极限（4）在预训练期间极差的采样效率

总结

比较有意义的是研究者对GPT3能力评估的范式：定义任务及其意义，把任务简化为语言模型的输入输出，最后评估GPT3在完成任务上的性能，并和该任务最优秀的模型相对比。这种研究思路很值得借鉴，即研究能产生实际价值的任务，当然这离不开前期大量调研、可行性分析和最后包含对比的结果评估。看论文能初步窥见研究的通用方法——控制变量，对多种因素进行测试、评估效果、得出结论（虽然这种科学素养从中学就学过，但我似乎还没有机会将其付诸实践，可能因为我还没真正开始做研究吧）。然而科研或许离不开扎实领域基础知识、奇思妙想、运气和出色的分析问题的能力，比起胡乱尝试，有章法的尝试更重要一些，这就离不开个人在基础知识上的思考以及优秀老师的指导。

GPT3论文摘要

Fine-Tuning (FT)

updating the weights of a pre-trained model by training on a supervised dataset specific to the desired task.

Few-Shot (FS)

the setting where the model is given a few demonstrations of the task at inference time as conditioning , but no weight updates are allowed.

One-Shot (1S)

the same as few-shot except that only one demonstration is allowed.

Zero-Shot (0S)

the same as one-shot except that no demonstrations are allowed, and the model is only given a natural language instruction describing the task.

future directions

(1)learning the objective function from humans , fine-tuning with reinforcement learning, or adding additional modalities such as images to provide grounding and a better model of the world (2)Making a bidirectional model at the scale of GPT-3, and/or trying to make bidirectional models work with few- or zero-shot learning (3)Improving pre-training sample efficiency (4)organizing diverse demonstrations during pre-trainingand identifying them at test time

questions left with

(1)notable weaknesses in text synthesis and several NLP tasks (2)several structural and algorithmic limitations (3)run into (or could already be running into) the limits of the pretraining objective (4)poor sample efficiency during pre-training

如何读论文

抓问题的本质

从点到系统

关注信息来源

一针见血

另外，关注：相关工作、解决方法、改进方向

标签：pre,shot,语言,GPT3,模型,任务,model
From： https://www.cnblogs.com/asandstar/p/17968360

Elasticsearch内核解析 - 数据模型篇【转载】
原文链接Elasticsearch是一个实时的分布式搜索和分析引擎，它可以帮助我们用很快的速度去处理大规模数据，可以用于全文检索、结构化检索、推荐、分析以及统计聚合等多种场景。Elasticsearch是一个建立在全文搜索引擎库ApacheLucene基础上的分布式搜索引擎，Lucene最早的版本是2......
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
随着大数据时代的来临，数据挖掘和机器学习在诸多领域中的应用价值日益凸显。手机评论数据作为消费者对产品和服务的主观反馈，具有巨大的商业价值。本文旨在帮助客户通过R语言实现支持向量机（SVM）模型在文本挖掘分类方面的研究，并对手机评论数据进行词云可视化分析，以深入挖掘消费者意见，为......
Markdown标记语言
Markdown标记语言标题"#"开头加空格是一级标题“##”两个#开头就是二级标题以此类推。字体加粗字体斜体斜体加加粗用删除线删除掉文字引用用>加空格就是引用格式分割线用---来表示分割线用***也可以表示分割线图片嵌入本地图片嵌入网络上的图片超链接......
R语言数据可视化分析案例：探索BRFSS数据
原文链接：http://tecdat.cn/?p=9284 加载包 library(tidyr)library(knitr)opts_chunk$set(echo=TRUE,fig.align="center") 载入资料 rload("brfss2013.RData")第1部分：数据描述如何收集样本中的观测值，以及此数据收集方法对推断范围（可概括性/因......
C语言学习随笔-11 作用域
作用域:作用域是程序中定义的变量所存放的区域，超过该区域就不能被访问 C语言中有三个地方可以声明变量： - 在函数或块内部的局部变量。 - 在所有函数外部的全局变量。 - 在形式参数的函数参数定义中。1、局部变量intmain局部变量(){/*1、局部变量......
C语言——函数指针类型转换
昨天为了避免跨层调用API搞了个回调函数，用了函数指针，因为参数类型的问题总是编译报错，今天就看了两篇博文学习学习，顺便做做笔记。其实正常来讲只要把函数指针的参数个数、类型和返回值这些函数指针的标签或者说是属性写对了的话就不会有社么问题，但我也不知道怎么着就会报......
paxos协议之衍生协议：Raft协议的简述、协议模型、一致性算法、脑裂问题处理、选举流程
raft简述raft协议中节点有三种状态leader、follower、candidate(候选人),leader复制日志的管理、客户端的新增更新请求，然后复制到follower节点，如果leader出现故障则follower就会重新选举，新增等操作若被follower所接收则会进行重定向转给leader，follower只负责客户端的读请求。有两......
Prompt Engineering 可能会是 2024 年最热门的“编程语言”？
编者按：“PromptEngineering”是否已经过时？模型本身的能力是否已经足够，不再需要特意设计prompt？我们今天为大家带来的文章，作者认为PromptEngineering不会过时，相反随着模型能力的增强，编写高质量prompt的重要性也将继续增加。文章详细论点归纳：(1)大语言模型应被视为操作系统的内......
C语言入门-printf库函数
printf()库函数调用格式：printf("<格式化字符串>",<参量表>);声明intprintf(constchar*format,...)参数格式字符意义a,A以十六进制形式输出浮点数(C99新增)。实例printf("pi=%a\n",3.14);输出pi=0x1.91eb86p+1。d以十进制形式输出带符号整数(正数不......
论文写作中不同模型输出对比
需要自己提供，输入图像、以及对应mask还有不同模型的预测结果。#可视化图像、mask、不同模型的输出importmatplotlib.pyplotaspltimportcv2frompathlibimportPathimportosfromskimageimportio,measureimportnumpyasnp#network_name=["CPFNet","Deep......