文章目录
1 大模型的架构
首先,人工智能(AI)有多种实现方式,而机器学习是其中的一种;而基于机器学习又延伸出了深度学习,深度学习的思想就是分层,通过多个层的叠加实现对数据的分级表达。
而神经网络又是深度学习的一种表现形式,是由模仿人脑神经元的机制而得名,又由于多层的神经网络具有庞大的参数,因此叫做大模型(庞大参数量的机器学习(神经网络)模型)。
所以,大模型的核心是层次堆叠;
因此,为了实现这种效果就有了多种神经网络的大模型架构。
大模型的常用架构主要包括Transformer,BERT,GPT,T5等;
每种架构都有其独特的设计理念和应用场景。
1.1 Transformer架构
Transformer是目前大模型的主流架构,由Vaswani等人于2017年提出。
它使用了注意力机制替代了传统的RNN和LSTM,能够更好的捕捉长距离依赖关系。
一、关键组件:
(1)自注意力机制:计算序列中各元素之间的相关性,生成每个元素的加权表示。
(2)多头注意力机制:将注意力机制并行化处理,提高模型的表示能力。
(3)位置编码:由于模型本身不具备顺