【神经网络组件】Transformer Encoder

【神经网络组件】Transformer Encoder

1. seq2seq模型

什么是sequence：sequence指由多个向量组成的序列。例如，有三个向量：\(\mathbf{a} = [1,0,0]^T,\mathbf{b} = [0,1,0]^T,\mathbf{c} = [0,0,1]^T\)，那么\([\mathbf{a},\mathbf{b},\mathbf{c}]\)构成一个sequence。
什么是seq2seq模型：
- seq2seq并不单指哪一个模型，而是一类模型的总称。Transformer就是seq2seq中的一种，也是最出名的一种。
- seq2seq有以下特点：它的输入是一个sequence，输出也是一个sequence，且输出sequence的长度不能事先确定，需要模型自主学习。
例如，机器翻译模型一般都是seq2seq模型。

如果想要把一段中文翻译成英文，那么模型的输入是中文，其中每个汉字可以表示成一个向量，这段中文可以表示成一个由向量组成的sequence。

输出是中文对应的英文，其中每个单词是一个向量，因此输出也可以表示成一个sequence。但是，输出sequence的长度不能确定，因为不能事先知道翻译过来的英文包含多少单词。
seq2seq的通用结构：Encoder-Decoder结构。Encoder处理输入sequence，把处理好的结果丢给Decoder，由Decoder生成输出sequence。

Transformer也是seq2seq模型，因此，Transformer中也分为Encoder和Decoder两部分。

2. 为什么只需要Transformer Encoder

对于Transformer中的Encoder和Decoder，可以这样理解它们各自的功能：Encoder负责对输入数据进行编码，Decoder根据编码后的数据生成新的序列。

在一些场景中，只需要对输入进行编码，不需要生成新的序列，也就是说，只会用到Transformer Encoder，不会用到Transformer Decoder。例如，情感分析，主题分类，垃圾邮件检测等文本分类任务；词性标注，命名实体识别等序列标注任务；以及在BERT中，都只会用到Transformer Encoder，而不会用到Transformer Decoder。

3. Transformer Encoder的结构

如果把Transformer Encoder看作一个黑盒，那么其输入是一个sequence，输出也是一个sequence，且输入sequence和输出sequence等长。

flowchart TD Input[(in_1,in_2,...,in_n)] Input --> E E[Transformer Encoder] output[(out_1,out_2,...,out_n)] E-->output

Encoder的内部是什么样的呢？

Encoder是由很多block连接在一起的。如果把每个block看作一个黑盒，那么每个block的输入是一个sequence，输出是同样长度的sequence。

flowchart TD Input[(in_1,in_2,...,in_n)] Input --> E subgraph E[Transformer Encoder] block1-->block2 block2-->A[...] A[...]-->blockn end output[(out_1,out_2,...,out_n)] E-->output

block的内部是什么样的呢？

每个block的结构如下图。

可以看到，block的结构大概分为两块，第一块是Multi-Head Attention和Add&Norm；第二块是Feed Forward 和Add&Norm。下面对这两块逐一讲解。

Multi-Head Attention和Add&Norm：

Multi-Head Attention表示多头自注意力层。
Add&Norm：
- Add表示残差
- Norm表示lay normalization：计算sequence中，一个输入向量所有维度的均值和方差，对这个输入向量做归一化。例如，输入向量是\(\mathbf{x} =[x_1,x_2,\cdots,x_K]\)，计算均值\(m = \sum_{i=1}^K x_i/K\),方差\(\sigma = \sum_{i=1}^K(x_i-m)^2/K\)。对于\(\mathbf{x}\)中的元素\(x_i\)，经过layer norm的输出\(x_i'\)可以表示为\(x_i' = \frac{x_i-m}{\sigma}\)

因此，block中这一块的结构可以表示下面的形式

flowchart TD input[(input)] --> attention[self-attention层] attention-->norm[layer normalization] input --> norm norm-->output[(output)]

Feed Forward 和Add&Norm：

这一块和上一块很像，因此只是简单讲一下。

Feed Forward ：全连接层。
Add&Norm：残差+layer normalization

其结构可以表示下面的形式

flowchart TD input[(input)] --> attention[Feed Forward层] attention-->norm[layer normalization] input --> norm norm-->output[(output)]

Transformer Encoder的完整结构：

在Transformer中，为了更好的利用位置信息，还要加上位置编码。

因此，Transformer Encoder的完整结构如下图。

标签：Transformer,sequence,--,seq2seq,Encoder,神经网络,Decoder
From： https://www.cnblogs.com/rh-li/p/18538410

【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Mode
......
剪枝技术在图神经网络中的创新应用
图神经网络，剪枝技术，模型压缩，效率优化，性能提升1.背景介绍图神经网络(GraphNeuralNetworks,GNNs)作为一种强大的机器学习模型，在处理图结构数据方面展现出非凡的潜力。近年来，GNNs在社交网络分析、推荐系统、药物发现等领域取得了显著的成果。然而，随着模型复杂度的增......
Python实现SSA智能麻雀搜索算法优化BP神经网络回归模型(优化权重和阈值)项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后关注获取。1.项目背景随着人工智能技术的发展，机器学习算法在各个领域的应用越来越广泛。其中，神经网络作为一类重要的机器学习方法，在模式识别、图像处理、自然语言处......
LeNet-5卷积神经网络的实现与改进-实验报告
摘要在本次实验中，我实现了LeNet-5卷积神经网络模型的构建与训练，以实现图像分类任务。主模型采用Pytorch框架搭建，模型识别准确率达到了87%，体现了较好的分类效果。除此之外，我还尝试使用C++实现模型的底层核心操作，包括卷积、池化及全连接等，但最终准确率较低，未达预期。此外，为进一步拓......
从0开始深度学习（27）——卷积神经网络（LeNet）
1LeNet神经网络LeNet是最早的卷积神经网络之一，由YannLeCun等人在1990年代提出，并以其名字命名。最初，LeNet被设计用于手写数字识别，最著名的应用是在美国的邮政系统中识别手写邮政编码。LeNet架构的成功证明了卷积神经网络在解决实际问题中的有效性，为后续更复杂、更强大的CN......
救命啊！字节大模型算法实习岗面试居然栽在Transformer上了！！
为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根)?transformer论文中的attention是ScaledDot-PorductAttention来计算keys和queries之间的关系。如下图所示:在公式一中，作者对0和K进行点积以获得注意力权重，然后这些权重用于加权平均V。但在实......
语义分割实战——基于DeepLabv3+神经网络头发分割系统源码
第一步：准备数据头发分割数据，总共有1050张图片，里面的像素值为0和1，所以看起来全部是黑的，不影响使用第二步：搭建模型DeepLabV3+的网络结构如下图所示，主要为Encoder-Decoder结构。其中，Encoder为改进的DeepLabV3，Decoder为3+版本新提出的。1.1、Encoder在Encoder部分，主要......
【CNN-GRU-Attention】基于卷积神经网络和门控循环单元网络结合注意力机制的多变量回
......
YOLO系列基础（一）卷积神经网络原理详解与基础层级结构说明
系列文章地址YOLO系列基础（一）卷积神经网络原理详解与基础层级结构说明-CSDN博客YOLO系列基础（二）Bottleneck瓶颈层原理详解-CSDN博客目录卷积神经网络的原理及卷积核详解一、卷积神经网络的原理二、卷积层与卷积核详解卷积核的作用卷积核的设计卷积样例与代码说明：卷积核......
detr+transformer+端到端目标检测+超越yolo的目标检测
DETR:使用Transformer的端到端目标检测DETR（DetectionTransformer）的PyTorch训练代码和预训练模型。我们用Transformer替代了完整的手工设计的目标检测流水线，并且在使用ResNet-50的情况下达到了与FasterR-CNN相匹配的性能，在COCO数据集上获得了42%的平均精度（AP），并且只用了后......

【神经网络组件】Transformer Encoder

【神经网络组件】Transformer Encoder

1. seq2seq模型

2. 为什么只需要Transformer Encoder

3. Transformer Encoder的结构

相关文章

赞助商

阅读排行