GPT:
参数量:1.17亿个参数。
模型架构:采用12层的Transformer编码器架构
GPT由pretraining和fine-tuning (SFT) 两部分组成
training objective:predict the next token
做pretraining的好处:
- 语料学习与理解:
预训练可以让模型在大量的语料上学习语言的基本规律、词汇的语义、句子的结构等。通过在大规模数据上进行预训练,模型能够掌握语言的基本知识,从而为后续的任务奠定基础。 - 提高泛化能力:
预训练能够使模型在广泛的数据上学习到通用的语言特征,从而具备较强的泛化能力。这样,模型在面对不同任务时能够更好地适应和表现。
在fine-tuning方面,GPT做了两个阶段的微调:
第一阶段是在目标任务的无标签数据上进行领域自适应预训练,也就是在下游任务的文本域上继续进行语言模型训练,使GPT-1能更好的适应目标任务的语言风格和内容
第二阶段是在带标注的任务数据集上进行有监督微调,也就是在GPT-1的基础上添加一个与任务相关的输出层,然后在任务的训练集上进行端到端的微调
GPT2:
参数量:有四种规模:
小型(124M):1.24亿参数。
中型(355M):3.55亿参数。
大型(774M):7.74亿参数。
最大型(1558M):15亿参数。
模型架构:最大的GPT-2模型采用48层的Transformer编码器架构,层数和参数量都显著增加
将layer normalization放到每个sub-block之前,并在最后一个Self-attention后再增加一个layer normalization
GPT-2是完全通过未监督学习训练的,这意味着它没有使用人工标记的数据
By focusing on a general training objective, GPT-2 can avoid overfitting to the peculiarities of specific tasks, which sometimes happens during the fine-tuning phase.
词表和context size:GPT-2将词汇表数量增加到50257个;最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens;batchsize增加到512
之后需要补充:
- Different training objectives
- The mechanism under pre-training
- the possible limitation in SFT phase
reference:
https://blog.csdn.net/sinat_37574187/article/details/131345668
https://zhuanlan.zhihu.com/p/698810883