首页 > 其他分享 >【大语言模型基础】GPT和GPT2区别

【大语言模型基础】GPT和GPT2区别

时间:2024-06-22 15:45:34浏览次数:25  
标签:training 语言 训练 GPT2 模型 任务 GPT

GPT:

参数量:1.17亿个参数。
模型架构:采用12层的Transformer编码器架构
GPT由pretraining和fine-tuning (SFT) 两部分组成
training objective:predict the next token

做pretraining的好处:

  1. 语料学习与理解:
    预训练可以让模型在大量的语料上学习语言的基本规律、词汇的语义、句子的结构等。通过在大规模数据上进行预训练,模型能够掌握语言的基本知识,从而为后续的任务奠定基础。
  2. 提高泛化能力:
    预训练能够使模型在广泛的数据上学习到通用的语言特征,从而具备较强的泛化能力。这样,模型在面对不同任务时能够更好地适应和表现。

在fine-tuning方面,GPT做了两个阶段的微调:
第一阶段是在目标任务的无标签数据上进行领域自适应预训练,也就是在下游任务的文本域上继续进行语言模型训练,使GPT-1能更好的适应目标任务的语言风格和内容
第二阶段是在带标注的任务数据集上进行有监督微调,也就是在GPT-1的基础上添加一个与任务相关的输出层,然后在任务的训练集上进行端到端的微调

GPT2:

参数量:有四种规模:
小型(124M):1.24亿参数。
中型(355M):3.55亿参数。
大型(774M):7.74亿参数。
最大型(1558M):15亿参数。
模型架构:最大的GPT-2模型采用48层的Transformer编码器架构,层数和参数量都显著增加
将layer normalization放到每个sub-block之前,并在最后一个Self-attention后再增加一个layer normalization
GPT-2是完全通过未监督学习训练的,这意味着它没有使用人工标记的数据
By focusing on a general training objective, GPT-2 can avoid overfitting to the peculiarities of specific tasks, which sometimes happens during the fine-tuning phase.
词表和context size:GPT-2将词汇表数量增加到50257个;最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens;batchsize增加到512

之后需要补充:

  1. Different training objectives
  2. The mechanism under pre-training
  3. the possible limitation in SFT phase

reference:
https://blog.csdn.net/sinat_37574187/article/details/131345668
https://zhuanlan.zhihu.com/p/698810883

标签:training,语言,训练,GPT2,模型,任务,GPT
From: https://www.cnblogs.com/kevinblogs/p/18262378

相关文章

  • [AI资讯·0622] Claude3.5超越GPT-4o,360推出AI搜索,OpenAI收购Rockset,华为发布大模型
    AI资讯「网红」周鸿祎,要为AI带货突发!OpenAI收购数据公司盘古5.0重磅发布!华为云大模型年度杀招来了,人形机器人现场整活GPT-4o一夜被赶超!Anthropic推出Claude3.5,网友3分钟克隆马里奥游戏中国人自己的操作系统!余承东掏出纯血鸿蒙,华为AI大招硬刚苹果Claude3.5突然发布!GPT-4o......
  • Scrum Master JobGPT
    ScrumMasterJobGPT:您在当前就业市场中茁壮成长的新工具。在搜索或选择新的ScrumMaster工作时获得帮助。     鉴于ScrumMaster和敏捷教练目前所处的动荡时期,我们的社区必须团结一致。这就是ScrumMasterJobGPT,您在就业市场上的新盟友。这个免费工具可以通过付费的......
  • 首个AI高考全卷评测结果出分,大模型“考生”表现如何?
    内容提要大部分大模型“考生”语文、英语科目表现良好,但在数学方面还有待加强。阅卷老师点评,在语文科目上,对于语言中的一些“潜台词”,大模型尚无法完全理解。在数学科目上,大模型的主观题回答相对凌乱,且过程具有迷惑性。正文6月19日,首个大模型高考全卷评测结果公布。2024年......
  • 【重磅】华为云盘古大模型5.0,正式发布!
    2024年6月21日,在华为开发者大会2024(HDC2024)上,华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实......
  • Python进大厂比赛中的特征工程与模型训练
    Python进大厂比赛中的特征工程与模型训练一、引言二、技术概述特征工程模型训练三、技术细节特征工程模型训练四、实战应用五、优化与改进特征工程模型训练六、常见问题特征工程模型训练七、总结与展望一、引言Python作为数据科学界的明星语言,其在机器学习、数......
  • 文字游侠:一款全新AI写作模型,每天10分钟一键创作爆文!附渠道和玩法教程!
    在当今快节奏的社会中,虽然传统的工作可以满足我们基本的物质需求,但许多人内心深处渴望的是更高层次的精神满足。这就像是我们常说的:“工资可以喂饱肚子,副业可以养活灵魂。”这并不是鼓励大家辞去日常工作,而是提倡在保持稳定收入的同时,开启一项副业来追求个人的兴趣和梦想。毕......
  • java object多大 java对象内存模型 数组有多长(九)多线程2
    背景:多线程与单线程byte模式有误差,而且多线程每次跑出来不一样 发现:set多线程单线程没有误差,意味着除了byte那一块代码,其他的代码是可被信任的单线程5000以下byte没有hash冲突时==单线程set==apache==理论值;基本证明了这套cas在单线程下没问题;hash冲突是导致单线程set和单线......
  • PyTorch(一)模型训练过程
    PyTorch(一)模型训练过程#c总结实践总结该实践从「数据处理」开始到最后利用训练好的「模型」预测,感受到了整个模型的训练过程。其中也有部分知识点,例如定义神经网络,只是初步的模仿,有一个比较浅的认识,还需要继续学习原理。整个流程:「准备数据」,「创建数据加载器」,「选择......
  • 大模型时代:程序员如何升职加薪?(附:全流程)
    什么是AI大模型?AI大模型,又称大规模预训练模型,是指那些具有超大规模参数量和复杂结构的人工智能模型。这些模型通常包含数百万至数百亿个参数,通过深度学习技术,特别是Transformer等先进架构,在大规模数据集上进行训练。它们可以从数据中学习并提取复杂的模式和规律,展现出了......
  • Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
    标题:用GPT-4增强CLIP:利用视觉描述作为提示源文链接:Maniparambil_Enhancing_CLIP_with_GPT-4_Harnessing_Visual_Descriptions_as_Prompts_ICCVW_2023_paper.pdf(thecvf.com)https://openaccess.thecvf.com/content/ICCV2023W/MMFM/papers/Maniparambil_Enhancing_CLIP_with......