【CVPR2023】Learning A Sparse Transformer Network for Effective Image Deraining

时间：2023-10-31 10:33:47浏览次数：51

标签：Transformer MSFN Learning Effective TKSA 论文 token Sparse

请添加图片描述

论文：https://readpaper.com/paper/4736105248993591297

代码：https://github.com/cschenxiang/DRSformer

Transformer 模型通常使用标准的 QKV 三件套进行计算，但是部分来自 K 的 token 与来自 Q 的 token 并不相关，如果仍然对这些 token 进行特征聚合计算会影响图像修复的性能。

为了解决这个问题，该论文提出了一种Sparse Transformer网络（DRSformer），它可以自适应地保留最有用的自注意力值以进行特征聚合，从而更好地促进高质量的图像重建。论文框架如下图所示，个人感觉主要创新有两个方面：top-k sparse attention (TKSA) 和 mixed-scale feed-forward network (MSFN)。

请添加图片描述

top-k sparse attention (TKSA)

TKSA如下图所示，大体沿用了 Restormer 的思路，不同之处在于作者创建了一个mask，把相对不重要的 token 置0了。这个算法的思路来自于 NeurIPS 21 的论文《Chasing Sparsity in Vision Transformers: An End-to-End Exploration》，原文中说，稀疏训练甚至可以提高ViT的准确性，而不是降低性能。

请添加图片描述

该论文还附一个 pytorch 的伪代码，具体如下。在这个去雨的任务中，通过实验作者保留了[1/2, 4/5] 区间的 token。

请添加图片描述

mixed-scale feed-forward network (MSFN)

MSFN的结构如下图所示，与Restormer里不同的地方是，作者使用两个尺度的卷积

请添加图片描述
实验部分可以参考作者论文，这里不过多介绍。

标签：Transformer,MSFN,Learning,Effective,TKSA,论文,token,Sparse
From： https://www.cnblogs.com/gaopursuit/p/17799690.html

Tabular Value-Based Reinforcement Learning
ReadingNotesaboutthebookDeepReinforcementLearningwrittenbyAskePlaatRecently,IhavebeenreadingthebookDeepReinforcementLearningwrittenbyAskePlaat.ThisbookisagoodintroductiontothetheoryofDeepReinforcementLearning.Andit......
轻松理解 Transformers（2）：Attention部分
编者按：随着人工智能技术的不断发展，Transformers模型架构已成为自然语言处理领域的重要基石。然而，许多人对其内部工作机制仍然感到困惑。本文通过浅显易懂的语言和生活中的例子，帮助读者逐步理解Transformers中最核心的Attention机制。本文是Transformers系列的第二篇。作者的核......
Transformer 相关资料列表
Transformer相关资料列表Encoder-Decoder框架1Transformer模型1连续词袋模型（CBOW）Word2vecTransformer模型中的positionalencoding(位置编码)计算理解Transformer模型中的positionalencoding(位置编码)计算理解(2)self-attention自注意力机制注意力机制（2）self-at......
DSPLearning_day02--卷积、互相关和差分方程求解的matlab实现
卷积实现\[y(n)=x(n)*h(n)\\y(n)=\sum_{m=-\infin}^{\infin}x(m)h(n-m)\]%确定第一个序列的x轴和y轴坐标nx=[0:1];x=[12];%确定第二个序列的x轴和y轴坐标nh=[0:2];h=[321];%conv是matlab自带的对两个序列进行卷积的函数y=conv(x,h);%注意配好......
pytorch(11.2) Transformer 代码
......
DSPLearning_dayONE___________matlab实现DTFT里面的一些常用函数以及基本运算
DSPmatlab实现\(\delta(n)\)的实现%matlab中坐标轴的横坐标和纵坐标是分开表示的n=-10:20;%横坐标的显示范围这个是确定了x轴的坐标范围delta=[zeros(1,10)1zeros(1,20)];%zeros(m,n)产生一个mxn的全零矩阵这个是每个x轴对应的y轴的值stem(n,delta);gridon......
长程 Transformer 模型
Tay等人的EfficientTransformerstaxonomyfromEfficientTransformers:aSurvey论文本文由TevenLeScao、PatrickVonPlaten、SurajPatil、YacineJernite和VictorSanh共同撰写。每个月，我们都会选择一个重点主题，阅读有关该主题的最近发表的四篇论文。然后，我......
论文阅读：DeepKE：A Deep Learning Based Knowledge Extraction Toolkit for Knowledge B
DeepKE，支持数据集和模型的结合来实现非结构化数据中信息的提取。同时提出框架和一系列的组件来实现足够的模块化和可扩展性。项目地址1.Introduction现存的KB是在实体和关系方面是不完备的。常见的一些标志性的应用：Spacy（实体识别）OpenNER（关系提取）OpenIE（信息提取）RESIN（事......
8.Transformer模型
1-Transformer模型是什么Transformer模型是一个基于多头自注意力的序列到序列模型(seq2seqmodel)，整个网络结构可以分为编码器（encoder）和解码器（decoder）两部分。seq2seq模型输出序列的长度是不确定的。我们输入一个sequence后，先由encoder负责处理，再把处理好的结果输入到decoder中......
Effective C++: 改善程序与设计的55个具体做法pdf电子版下载
EffectiveC++:改善程序与设计的55个具体做法pdf电子版下载作者: [美]ScottMeyers原作名: EffectiveC++:55SpecificWaystoImproveYourProgramsandDesigns出版年: 2011-1-1ISBN: 9787121123320连接提取码：og02关于这本书有个颇有名气的段子：C++程序员可以分为两类,读......

【CVPR2023】Learning A Sparse Transformer Network for Effective Image Deraining

top-k sparse attention (TKSA)

mixed-scale feed-forward network (MSFN)

相关文章

赞助商

阅读排行