AI大模型是什么
AI大模型是指具有巨大参数量的深度学习模型,通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力,从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。
AI大模型的定义具体可以根据参数规模来分类。根据OpenAI的分类方法,可以将AI模型分为以下几类:
小型模型: ≤ 1百万个参数
中型模型:1百万 – 1亿个参数
大型模型:1亿 – 10亿个参数
极大型模型:≥ 10亿个参数
其中大型模型和极大型模型可以被视为AI大模型。总的来说,“大模型”应该是基于具有超级大规模的、甚至可以称之为“超参数”的模型,需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。
AI大模型很大一个原理:通过大量的学习,不断提高预测结果的准确性
token:一般指的是大语言模型的一个基本文本单位
模型会先看到一部分文本,基于上下文预测下一个token,然后通过比较准确答案和他的预测,模型会更新权重,从来能够根据上文来生成合理的下文,随着见过的文本越多,生产的结果就越好。
要得到一个ChatGPT要分三步:
1.无监督学习(成本最高)
.通过大量大量的文本为原料(大模型中的大也就是大量大量的原料参数意思)进行无监督学习预训练去训练模型,最后得到了一个能进行文本生产的基座模型,此时具有根据上文预测下一个token的能力,但并不擅长对话
2.监督微调
通过一些人类撰写的高质量对话数据对基座模型进行监督微调,得到一个微调后的模型,此时的模型除了续写文本之外,也会具备更好的对话能力,得到一个STF模型
3.(训练奖励模型+强化学习训练)
用问题和多个对应回答的数据,让人类标注员更加3H(helpful,honest,harmless)原则对回答进行质量排序,如果打分高的话就再接再厉,低的话就要给予改正,当时由于人类一个个打分成本高效率低,于是就训练出了另一个(奖励)模型,让模型给模型打分,不断地回答学习,回答的质量也在不断提升
以上ChatGPT被练成了。
增强辅助:
小样本,思维链,分步骤思考
标签:训练,AI,模型,宏观,学习,参数,文本 From: https://blog.csdn.net/m0_74969835/article/details/141941352