【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

时间：2023-01-26 17:36:37浏览次数：78

标签：Transformer Semantic Linear Head Free times Segmentation

请添加图片描述

论文：【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

代码：https://github.com/dongbo811/AFFormer

这是来自阿里巴巴的工作，作者构建了一个轻量级的Transformer网络用于语义分割，主要有两点创新：1、用prototype representation作为可学习的局部描述代替decoder；2、构造了自适应频率滤波模块提取频率信息。

网络整体架构如下图所示，包括四个阶段，每个阶段包括 prototype learning (PL) 和 Pixel Descriptor (PD)。我的理解是：（1）PL 将 \(F\in\mathbb{R}^{H\times W\times C}\)通过 clustering 变为 \(G\in\mathbb{R}^{h\times w\times C}\)，这样可以显著降低计算量（但是 H 和 h 的比例关系，我没有看到，实验里也没有分析）。同时，聚类是在 3x3 的邻域里实现的。接着 \(G\) 输入Adaptive Frequency Transformer 的模块计算得到\(G'\)；（2）PD 是CNN网络，用于将\(G'\)恢复到输入大小。（但是PD的具体细节，论文里没有介绍）

请添加图片描述

该方法的核心在于Prototype Learning 中的 Adaptive Frequency Filter，结构如下图所示。相当于改变了self-attention 中QKV 的计算方式。有三个分支，计算的结果最后直接相加。

（1）Frequency similarity kernel. 作者描述是计算的 K 和 V 之间的相似性，使用一个 linear layer 对 K 和 V 进行降维，然后应用 Softmax 。（图里描述是分了H个组，相似性矩阵大小为 (C/H)x(C/H)，但是H这个参数具体取的多少论文里没有介绍）

（2）Dynamic low-pass filters. 作者应用 average pooling 取代 low-pass filter。将V分为 m 组，每组特征进行均值池化，然后使用 bilinear pooling 进行恢复。（这个地方我有些疑问，这一步没有参数）

（3）Dynamic high-pass filter. 作者将 V 分为 n 组，每组应用\(k\times k\) 的 depth-wise conv 。同时，作者还将结果与 Q 做 Hadamard 积来抑制高频部分。

最后，三部分计算的结果直接相加，得到AFF模块的最终输出。

实验上，该方法对标的是SegFormer，有明显的性能提升。

个人感觉可以受限于AAAI论文篇幅不能过长，有一些细节需要讨论：

有几个参数没有介绍与分析（PL第一步将特征从F转化为G时，下采样的倍率；AFF里面的H、M、N等）
题目里的 head-free 应该指的是没有 decoder 吧，因为不专业做语义分割，不是特别清楚

标签：Transformer,Semantic,Linear,Head,Free,times,Segmentation
From： https://www.cnblogs.com/gaopursuit/p/17067939.html

Headscale 端到端直连
说明Tailscale终究是第三方平台，如该平台发生数据泄露、异常崩溃、服务终止等，就无能为力。或许，我们可以自己建一个类似的私有平台？Headscale旨在实现一个自托管、开源的T......
关于使用express报错：Error [ERR_HTTP_HEADERS_SENT]: Cannot set headers after they
浏览器中首次能够访问{"code":200,"data":[ { "url":"https://www.douyin.com" }],"message":"请求成功！"}第二次访问就无法访问了......
Strapi & headless CMS All In One
Strapi&headlessCMSAllInOneStrapi-OpensourceNode.jsHeadlessCMS......
Jmeter元件正则表达式提取器提取Response headers的数据
在测试中，我们会遇到授权码在Responseheaders中，如下：那么我们该如何提取到这个Authorization授权码呢，首先添加元件正则表达式提取器：正则表达式为Authorization:(.*)注意......
普林斯顿大学算法Week3:CollinearPoints共线模式识别(99分)--总结及代码
总结(代码有详细注释)本课讲了归并排序,作业应用是排序进行共线的模式识别,java1.8中的排序用的是tim排序,结合了归并排序与插入排序,属于稳定排序:排序之后相同元素的相对......
vue 如何将打包时间记录到html的head里面
在vue.config.js文件中，对chainWebpack的配置进行设置chainWebpack(config){config.plugin('html').tap(args=>{constdate=newDate()......
11.Requests【接口请求】requests模拟headers传参
一、前言我们在讲http协议的时候，已经了解到接口的请求存在请求体，也叫header。其实在模拟接口请求时，如果后台没有对header中的参数做校验，则可以不用传header信息，比如我们上......
Write-ahead logging
Write-aheadlogging AlgorithmsforRecoveryandIsolationExploitingSemantics-DetailedPedia...Createlogrecordsoftheform(SequenceNumber,Transactio......
ABAP 编程语言里的 Reference Semantic - 引用语义
ABAP编程语言里，对ABAP类实例（类对象）或匿名数据对象的多个引用，使用引用语义(ReferenceSemantic)解析。这意味着：引用单个类对象或匿名数据对象的所有变量，在内存中共享......
【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Ge
·阅读摘要：本文提出针对CV领域的多任务模型，设置一个可以学习损失权重的损失层，可以提高模型精度。·参考文献： [1]Multi-TaskLearningUsingUncertaintytoWeig......

【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

相关文章

赞助商

阅读排行