编码器的稀疏注意力块（ProbSparse Self-Attention Block）

时间：2024-06-23 19:01:00浏览次数：25

标签：编码器线性变换 Self Attention 稀疏 Add 维度 512 注意力

编码器的稀疏注意力块（ProbSparse Self-Attention Block）详细解释

1. 概述

稀疏注意力块是Informer模型的核心组件之一，旨在高效处理长时间序列数据。它通过稀疏自注意力机制（ProbSparse Self-Attention）显著降低计算复杂度，同时保持较高的性能。

2. 主要组件

稀疏注意力块由以下几个主要部分组成：

多头稀疏注意力（Multi-head ProbSparse Attention）
Add, LayerNorm, Dropout
位置前馈网络（Position-wise Feed-Forward Network, FFN）
GELU 激活函数
重复机制

3. 多头稀疏注意力（Multi-head ProbSparse Attention）

作用：稀疏注意力机制通过挑选重要的注意力头来减少计算量。
具体步骤：
1. 线性变换：输入特征通过线性变换生成查询（Query）、键（Key）、和值（Value）矩阵。
2. 计算注意力分数：通过点积计算查询和键的相似度，并通过Softmax归一化得到注意力权重。
3. 选择重要的头：通过概率稀疏性方法，仅计算和保留重要的注意力头。
4. 加权求和：用注意力权重加权和值（Value），得到注意力输出。
5. 多头注意力：将多个注意力头的输出拼接在一起，并通过线性变换。
计算复杂度：相比传统自注意力的 O ( N 2 ) O(N^2) O(N2) 复杂度，稀疏注意力机制通过选择重要注意力头将其降低到 O ( N log ⁡ N ) O(N \log N) O(NlogN)，其中 N N N 是序列长度。

4. Add, LayerNorm, Dropout

Add：将注意力输出与输入特征相加，形成残差连接（Residual Connection），有助于防止梯度消失和过拟合。
LayerNorm：进行层归一化，标准化每个输入样本，改善训练稳定性和收敛速度。
Dropout：随机丢弃一些神经元，防止过拟合，丢弃率为0.1。

5. 位置前馈网络（Position-wise Feed-Forward Network, FFN）

结构：
1. 线性变换：输入经过线性变换，维度从 d model d_{\text{model}} dmodel 转换到 d inner d_{\text{inner}} dinner，即 2048 2048 2048。
2. GELU 激活函数：应用GELU（Gaussian Error Linear Unit）激活函数，引入非线性。
3. 线性变换：再通过线性变换将维度从 d inner d_{\text{inner}} dinner 转换回 d model d_{\text{model}} dmodel，即 512 512 512。
Add, LayerNorm, Dropout：再一次应用残差连接、层归一化和丢弃操作，进一步增强模型的训练和泛化能力。

6. 重复机制

整个稀疏注意力块重复4次，每次重复都进一步提炼和强化输入特征的表示能力。

具体实例

假设我们有一个时间序列数据，经过前面的Conv1d和嵌入层处理后，得到一个长度为10的序列，每个时间点的特征维度为512。

示例步骤

多头稀疏注意力：
- 将输入特征通过线性变换生成查询、键和值矩阵（每个维度为 10 , 16 , 32 10, 16, 32 10,16,32）。
- 计算注意力分数，选择最重要的头（假设选择了8个头）。
- 将这些头的注意力输出拼接并通过线性变换得到最终的注意力输出。
Add, LayerNorm, Dropout：
- 将注意力输出与输入特征相加，进行层归一化和丢弃。
位置前馈网络：
- 通过两次线性变换和GELU激活，处理后的特征从512维度变到2048维度，再返回到512维度。
- 应用Add, LayerNorm和Dropout操作。
重复4次：
- 整个过程重复4次，不断精炼和强化特征表示。

小结

通过稀疏注意力块，Informer模型能够在保持高效的计算性能同时，提取并强化时间序列中的重要模式和依赖关系。这种设计使其特别适合处理长时间序列数据。

标签：编码器,线性变换,Self,Attention,稀疏,Add,维度,512,注意力
From： https://blog.csdn.net/m0_51200050/article/details/139794531

编码器的蒸馏（Distilling）详细解释
编码器的蒸馏（Distilling）详细解释概述蒸馏（Distilling）步骤是在稀疏注意力块之后，用于进一步压缩和提炼特征表示。这个步骤的主要目的是减少序列长度，使得模型能够更有效地处理长时间序列数据，同时保持重要的特征信息。主要步骤1x3卷积层（Conv1d）ELU激活函数最大池化（MaxPooli......
cross attention的源码实现，并代码详细讲解
importnumpyasnpdefsoftmax(x,axis=-1):"""Softmax函数，用于计算注意力权重"""e_x=np.exp(x-np.max(x,axis=axis,keepdims=True))returne_x/e_x.sum(axis=axis,keepdims=True)defscaled_dot_product_attention(q,k......
Transformer细节（五）——详解Transformer解码器的自注意力层和编码器-解码器注意力层数
一、自注意力层（Self-AttentionLayer）并行处理目标序列自注意力层的任务是计算输入序列中每个位置之间的关系，并生成每个位置的表示。这一过程可以并行处理，因为它并不依赖于前一个位置的计算结果。自注意力机制的具体步骤1.输入嵌入与位置编码 ......
def __init__(self,parameterlist)初始化方法和def __functionName__(self,parameterl
问题描述：def__init__(self,parameterlist)初始化方法和def__functionName__(self,parameterlist)实例方法，其中functionName是具体方法的名字，比如表示奔跑、或者狗叫的方法。对于上面这两种方法有什么区别？问题解答：在Python类中，__init__方法和其他实例方法（如__functionName_......
在面向对象的创建中，需要用到def init(self)方法。括号里的self是必选参数，必选参数存在
问题描述：在面向对象的创建中，需要用到definit(self)方法。括号里的self是必选参数，必选参数存在的意义是什么，self可以干什么用，请举例表达self的用处。问题解答：在面向对象编程中，__init__(self)方法是类的构造函数，用于初始化对象实例。括号里的self参数是必选参数，代表类实例......
MCT Self-Refine：创新集成蒙特卡洛树搜索（MCTS）提高复杂数学推理任务的性能，超GPT4，使用 L
......
8路编码器脉冲计数器或16路DI高速计数器，Modbus RTU模块 YL69-485/232
特点：●编码器解码转换成标准ModbusRTU协议●可用作编码器计数器或者转速测量●支持8个编码器同时计数，可识别正反转●也可以设置作为16路独立DI高速计数器● 编码器计数值支持断电自动保存● DI输入和电源之间3000V隔离●通过RS-485/232接口可以清零和设置计数......
基于时间卷积门控循环单元融合注意力机制TCN-GRU-Attention实现负荷多变量时间序列预
%导入数据load(‘data.mat’);%请替换为你的数据文件名%数据应该是一个矩阵，每一行代表一个时间步，每一列代表一个特征或变量%划分训练集和测试集trainRatio=0.8;%训练集比例trainSize=round(trainRatio*size(data,1));trainData=data(1:trainSize,......
【YOLOv8改进】MLCA(Mixed local channel attention):混合局部通道注意力(论文笔记+引
摘要本项目介绍了一种轻量级的MixedLocalChannelAttention(MLCA)模块，该模块同时考虑通道信息和空间信息，并结合局部信息和全局信息以提高网络的表达效果。基于该模块，我们提出了MobileNet-Attention-YOLO(MAY)算法，用于比较各种注意力模块的性能。在PascalVOC和SMID数......
【YOLOv8改进】BRA(bi-level routing attention ):双层路由注意力(论文笔记+引入代码)
摘要作为视觉Transformers的核心构建模块，注意力机制是一种强大的工具，用于捕捉长程依赖关系。然而，这种强大功能也带来了代价：计算代价巨大且内存占用高，因为需要计算所有空间位置上成对的token交互。为缓解这一问题，一系列研究尝试通过引入手工设计且内容无关的稀疏性来改进注意力机......