点击下载:AIGC与NLP大模型实战-经典CV与NLP大模型及其下游应用任务实现
提取码: hqq8
当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。
目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的 AI 转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。
基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快 AI 产业化进程,降低 AI 应用门槛。
NLP大模型是被认为最接近人类中文理解能力的AI大模型,而CV大模型首次兼顾了图像判别与生成能力。
未来的方向
- 进一步扩大模型规模,改善模型架构和训练 改善模型的架构或者训练过程可能会带来具有涌现能力的高质量模型,并减少计算量。 一种方向是使用稀疏混合专家架构,其在保持恒定输入成本时具有更好的计算效率,使用更加局部的学习策略,而不是在神经网络的所有权重上进行反向传播,以及使用外部存储来增强模型。
- 扩大数据规模 在一个足够大的数据集上训练足够长的时间被证明是语言模型获得语法、语义和其他世界知识的关键。近期,Hoffmann et al.认为先前的工作低估了训练一个最优模型的训练数据量,低估了训练数据的重要性。收集模型可以在其上训练更长时间的大量数据,允许在一个固定模型尺寸的约束下有更大范围的涌现能力。
- 更好的prompt 虽然few-shot prompting简单有效,对prompting通用性的改善将进一步扩展语言模型的能力。
- 原来的模型只学习输入——输出之间的关系;而Transformer提出了Self-Attention的概念,学习输入——输入之间,输出——输出之间,输入——输出之间这三种关系。
- Transformer提出了multi-head attention的机制,分别学习对应的三种关系,使用了全Attention的结构。
- 对于词语的位置,Transformer使用positional encoding机制进行数据预处理,增大了模型的并行性。
- Transformer结构
- Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:
- 第一步:获取输入句子的每一个单词(token)的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 两部分相加得到。