Transformer中的Encoder与Decoder

时间：2024-10-13 21:01:20浏览次数：7

标签：Transformer Encoder 解码器 Decoder 多头机制注意力向量

参考学习：

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客

彻底搞懂了Transformer解码器（图文详解） - 知乎 (zhihu.com)

这样图解Transformer应该没人看不懂了吧——多头注意力机制详解_transformer 多头注意力机制-CSDN博客

本文目标是加强记忆，如果想具体学习点击链接参考学习。

下图为Transformer模型结构：

下面是另一种简单的表示形式：

这样看在Transformer中主要部分其实就是编码器Encoder与解码器Decoder两个部分；

编码器：

编码器部分是由多头注意力机制，残差链接，层归一化，前馈神经网络所构成。

先来了解一下多头注意力机制，多头注意力机制是由多个自注意力机制组合而成。

自注意力机制：

我们的输入是词嵌入向量与位置编码所结合而成的一种编码将其作为输入。

而自注意力机制中需要我们将输入的编码经过Wq，Wk，Wv权重进行线性代数运算后先得到的QKV的向量进行后面的处理。

在算出每个词嵌入的QKV之后还要对其进行打分操作，具体方式就是选定一个词向量的Q与遍历一遍词向量与遍历的词向量的K相乘得出一个数值，再除以一个数值防止这个QK的乘积过大影响梯度更新稳定性，最后将所有的遍历值进行一次softmax操作，将所得到的数值控制在(0-1)范围之内，将这些打分权重与各个词向量的V进行相乘最后求和，得出这个词向量的z，也就是最终的目标值。

而多头注意力机制就是对输入进行多个并层的自注意力机制，最后将值拼接起来，通过一个W0的矩阵进行乘法，得到最后的结果维度要与输入的维度相同，与输入的数据进行一次相加也就是残差思想。

上面就是多头注意力机制的模块解析。

得到多头注意力机制的向量后再输送下一层前，进行了一次残差连接与层归一化操作再送往前馈神经网络进行处理。

前馈神经网络就很简单了：

解码器部分：

解码器结构与编码器类似，但是在处理解码器的第一个多头自注意力机制的时候进行了掩码操作，为了防止后续的词影响前面的词进行预测，防止他们之间产生关联影响训练：

在解码器第二个多头注意力机制模块使用编码器得到的结果与Wq，Wk进行矩阵乘法计算得到QK，V是使用解码器第一次多头自注意力计算得出的结果与Wv矩阵相乘得出。

来看看编码器和解码器运行流程：

这样运行就很直观了。

标签：Transformer,Encoder,解码器,Decoder,多头,机制,注意力,向量
From： https://www.cnblogs.com/qianzhu/p/18462961

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力
本文深入探讨Transformer模型中三种关键的注意力机制：自注意力、交叉注意力和因果自注意力。这些机制是GPT-4、Llama等大型语言模型（LLMs）的核心组件。通过理解这些注意力机制，我们可以更好地把握这些模型的工作原理和应用潜力。我们不仅会讨论理论概念，还将使用Python和PyTorch从零开......
Transformer的Pytorch实现【1】
使用Pytorch手把手搭建一个Transformer网络结构并完成一个小型翻译任务。首先，对Transformer结构进行拆解，Transformer由编码器和解码器（Encoder-Decoder）组成，编码器由Multi-HeadAttention+Feed-ForwardNetwork组成的结构堆叠而成，解码器由Multi-HeadAttention+Multi-HeadAtte......
从组会尴尬到学术突破：Transformer助力跨域推荐解析
最近学习了Transformer模型，突然意识到我常阅读的一篇论文中也使用了Transformer。回想起上次开组会时，老师问我论文中的模型是什么，我当时没有答上来，现在才发现其实用的就是Transformer。这种学习过程让我深感，学得越多，知识之间的联系就会越清晰，许多概念最终都能融会贯通。这......
使用PyTorch搭建Transformer神经网络:入门篇
目录简介环境设置PyTorch基础Transformer架构概述实现Transformer的关键组件5.1多头注意力机制5.2前馈神经网络5.3位置编码构建完整的Transformer模型训练模型总结与进阶建议简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大......
Transformer中的词嵌入Embedding与位置编码Positional Encoding
参考学习：transformer详细介绍(1)__输入Embedding与位置编码_inputembedding-CSDN博客本文只是为了加强记忆而书写，具体想学习进入链接学习更清晰。Transformer模型主要是编码器与译码器，下面是模型的框架图：编码器部分包含多头注意力机制，层归一化，前馈神经网络还有残差的思想保......
关于Transformer的相关问题
......
Transformer面试总结（一）
1、Transformer模型的基本结构是什么？他是如何改变深度学习领域的？它的基本结构包括：自注意力机制（Self-Attention）：Transformer模型使用自注意力机制来处理输入序列中的每个元素与其他元素之间的关系。这种机制允许模型同时考虑输入序列中的所有元素，而不是仅仅依赖于位置信息。......
【AI大模型】深入Transformer架构：编码器部分的实现与解析（下）
目录......
transformers和bert实现微博情感分类模型提升
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目......
如何使用Transformer模型处理金融文本数据？
《DeepLearningforFinance》这本书主要介绍了如何使用深度学习技术，特别是机器学习和强化学习方法来处理金融数据，但并没有详细讨论Transformer模型在金融文本数据处理中的应用。不过，基于深度学习的一般知识以及Transformer模型的广泛用途，我们可以构建一个关于如何利用Tran......

Transformer中的Encoder与Decoder

相关文章

赞助商

阅读排行