【大语言模型基础】GPT和GPT2区别

时间：2024-06-22 15:45:34浏览次数：28

GPT：

参数量：1.17亿个参数。
模型架构：采用12层的Transformer编码器架构
GPT由pretraining和fine-tuning (SFT) 两部分组成
training objective：predict the next token

做pretraining的好处：

语料学习与理解：
预训练可以让模型在大量的语料上学习语言的基本规律、词汇的语义、句子的结构等。通过在大规模数据上进行预训练，模型能够掌握语言的基本知识，从而为后续的任务奠定基础。
提高泛化能力：
预训练能够使模型在广泛的数据上学习到通用的语言特征，从而具备较强的泛化能力。这样，模型在面对不同任务时能够更好地适应和表现。

在fine-tuning方面，GPT做了两个阶段的微调：
第一阶段是在目标任务的无标签数据上进行领域自适应预训练，也就是在下游任务的文本域上继续进行语言模型训练，使GPT-1能更好的适应目标任务的语言风格和内容
第二阶段是在带标注的任务数据集上进行有监督微调，也就是在GPT-1的基础上添加一个与任务相关的输出层，然后在任务的训练集上进行端到端的微调

GPT2：

参数量：有四种规模：
小型（124M）：1.24亿参数。
中型（355M）：3.55亿参数。
大型（774M）：7.74亿参数。
最大型（1558M）：15亿参数。
模型架构：最大的GPT-2模型采用48层的Transformer编码器架构，层数和参数量都显著增加
将layer normalization放到每个sub-block之前，并在最后一个Self-attention后再增加一个layer normalization
GPT-2是完全通过未监督学习训练的，这意味着它没有使用人工标记的数据
By focusing on a general training objective, GPT-2 can avoid overfitting to the peculiarities of specific tasks, which sometimes happens during the fine-tuning phase.
词表和context size：GPT-2将词汇表数量增加到50257个；最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens；batchsize增加到512

之后需要补充：

Different training objectives
The mechanism under pre-training
the possible limitation in SFT phase

reference：
https://blog.csdn.net/sinat_37574187/article/details/131345668
https://zhuanlan.zhihu.com/p/698810883

标签：training,语言,训练,GPT2,模型,任务,GPT
From： https://www.cnblogs.com/kevinblogs/p/18262378

[AI资讯·0622] Claude3.5超越GPT-4o，360推出AI搜索，OpenAI收购Rockset，华为发布大模型
AI资讯「网红」周鸿祎，要为AI带货突发！OpenAI收购数据公司盘古5.0重磅发布！华为云大模型年度杀招来了，人形机器人现场整活GPT-4o一夜被赶超！Anthropic推出Claude3.5，网友3分钟克隆马里奥游戏中国人自己的操作系统！余承东掏出纯血鸿蒙，华为AI大招硬刚苹果Claude3.5突然发布！GPT-4o......
Scrum Master JobGPT
ScrumMasterJobGPT：您在当前就业市场中茁壮成长的新工具。在搜索或选择新的ScrumMaster工作时获得帮助。鉴于ScrumMaster和敏捷教练目前所处的动荡时期，我们的社区必须团结一致。这就是ScrumMasterJobGPT，您在就业市场上的新盟友。这个免费工具可以通过付费的......
首个AI高考全卷评测结果出分，大模型“考生”表现如何？
内容提要大部分大模型“考生”语文、英语科目表现良好，但在数学方面还有待加强。阅卷老师点评，在语文科目上，对于语言中的一些“潜台词”，大模型尚无法完全理解。在数学科目上，大模型的主观题回答相对凌乱，且过程具有迷惑性。正文6月19日，首个大模型高考全卷评测结果公布。2024年......
【重磅】华为云盘古大模型5.0，正式发布！
2024年6月21日，在华为开发者大会2024（HDC2024）上，华为常务董事、华为云CEO张平安正式发布盘古大模型5.0，在全系列、多模态、强思维三个方面全新升级；张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实......
Python进大厂比赛中的特征工程与模型训练
Python进大厂比赛中的特征工程与模型训练一、引言二、技术概述特征工程模型训练三、技术细节特征工程模型训练四、实战应用五、优化与改进特征工程模型训练六、常见问题特征工程模型训练七、总结与展望一、引言Python作为数据科学界的明星语言，其在机器学习、数......
文字游侠：一款全新AI写作模型，每天10分钟一键创作爆文！附渠道和玩法教程！
在当今快节奏的社会中，虽然传统的工作可以满足我们基本的物质需求，但许多人内心深处渴望的是更高层次的精神满足。这就像是我们常说的：“工资可以喂饱肚子，副业可以养活灵魂。”这并不是鼓励大家辞去日常工作，而是提倡在保持稳定收入的同时，开启一项副业来追求个人的兴趣和梦想。毕......
java object多大 java对象内存模型数组有多长（九）多线程2
背景：多线程与单线程byte模式有误差，而且多线程每次跑出来不一样发现：set多线程单线程没有误差，意味着除了byte那一块代码，其他的代码是可被信任的单线程5000以下byte没有hash冲突时==单线程set==apache==理论值；基本证明了这套cas在单线程下没问题；hash冲突是导致单线程set和单线......
PyTorch（一）模型训练过程
PyTorch（一）模型训练过程#c总结实践总结该实践从「数据处理」开始到最后利用训练好的「模型」预测，感受到了整个模型的训练过程。其中也有部分知识点，例如定义神经网络，只是初步的模仿，有一个比较浅的认识，还需要继续学习原理。整个流程：「准备数据」，「创建数据加载器」，「选择......
大模型时代：程序员如何升职加薪？（附：全流程）
什么是AI大模型？AI大模型，又称大规模预训练模型，是指那些具有超大规模参数量和复杂结构的人工智能模型。这些模型通常包含数百万至数百亿个参数，通过深度学习技术，特别是Transformer等先进架构，在大规模数据集上进行训练。它们可以从数据中学习并提取复杂的模式和规律，展现出了......
Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
标题：用GPT-4增强CLIP:利用视觉描述作为提示源文链接：Maniparambil_Enhancing_CLIP_with_GPT-4_Harnessing_Visual_Descriptions_as_Prompts_ICCVW_2023_paper.pdf(thecvf.com)https://openaccess.thecvf.com/content/ICCV2023W/MMFM/papers/Maniparambil_Enhancing_CLIP_with......

【大语言模型基础】GPT和GPT2区别

GPT：

GPT2：

相关文章

赞助商

阅读排行