首页 > 其他分享 >BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT

BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT

时间:2023-12-18 19:11:26浏览次数:35  
标签:Transformer BiFormer 标记 times token 区域 键值 轻量 注意力

alias: Zhu2023a
tags: 超标记 注意力
rating: ⭐
share: false
ptype: article

BiFormer: Vision Transformer with Bi-Level Routing Attention

* Authors: [[Lei Zhu]], [[Xinjiang Wang]], [[Zhanghan Ke]], [[Wayne Zhang]], [[Rynson Lau]]


初读印象

comment:: Biformer通过双层路由利用动态稀疏注意力,通过内容感知更灵活地分配计算。它在粗略的区域级别上过滤掉不相关的键值对,并在其余的候选区域中应用细粒度的token-to-token attention。这种方法可以节省计算和内存,同时保持良好的性能和较高的计算效率。

Why

自注意力的优点:

  1. 它能够捕捉数据中的长程依赖性
  2. 它几乎没有归纳偏差,因此使模型更灵活地适应大量数据

自注意力的缺点:

  1. 由于注意力计算的是所有空间位置的成对标记亲和性,因此计算复杂度高,内存占用大
  2. 稀疏注意力使用不同的策略来合并或选择键/值标记,但要么使用手工制作的静态模式,要么在所有查询中共享键值对的采样子集。然而,根据预训练的 ViT和 DETR的可视化结果,不同语义区域的查询实际上关注的键值对大相径庭。因此,强迫所有查询都关注同一组标记可能不是最佳选择。

Pasted image 20230829152531###What

Bi-Level Routing Attention

在粗略的区域级别上过滤掉大部分无关的键值对,从而只保留一小部分路由区域。然后,在这些路由区域的结合部应用细粒度的token-to-token- attention。复杂度为:
Pasted image 20230829165020

Region partition and input projection

给定2D特征图\(X\in R^{H\times W\times C}\),切割成\(S\times S\)的非重叠区域,得到\(X^r \in R^{S^2\times \frac{HW}{S^2}\times C}\)。
利用线性映射
Pasted image 20230829161149得到Pasted image 20230829161200

Region-to-region routing with directed graph

通过构建一个有向图寻找注意关系。
首先对\(Q,K\)做区域平均池化得到区域级query和key:
Pasted image 20230829161656得到区域亲和矩阵\(A^r\in R^{S^2\times S^2}\)用于衡量两个区域在语义上的相关程度。:
Pasted image 20230829162228

剪切亲和图,只保留每个区域的前 k 个连接,得出路由索引矩阵\(I_r \in N^{S^2 \times k}\)
Pasted image 20230829162516\(I_r\)的第 i 行包含与第 i 个区域最相关的 k 个区域的索引。

Token-to-token attention

收集key和value的向量:\(K^g,V^g\in R^{S^2\times \frac{kHW}{S^2}\times C}\)
Pasted image 20230829163621
做自注意力
Pasted image 20230829164945LCE是一个depth-wise卷积。Pasted image 20230829165909

Overall Architecture

Pasted image 20230829170030###How

Pasted image 20230829170056

标签:Transformer,BiFormer,标记,times,token,区域,键值,轻量,注意力
From: https://www.cnblogs.com/tifuhong/p/17909251.html

相关文章

  • 2021-CVPR-Transformer Tracking
    TransformerTracking相关性在跟踪领域起着关键作用,特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而,相关操作本身是一个局部线性匹配过程,导致语义信息的丢失并容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。还有比相关......
  • (亲测)云原生之使用Docker部署Teedy轻量级文档管理系统
    一、Teedy介绍1.1Teedy简介Teedy是一个开源的、功能丰富、易于使用和自定义的文档管理工具,它能够帮助用户管理和组织文档,适用于个人、小组和组织使用。1.2Teedy特点创建和编辑文档:用户可以使用Markdown格式创建和编辑文档,还可以添加标签和注释。文件上传和管理:用户可以上传和管理......
  • Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT
    RethinkingandImprovingRelativePositionEncodingforVisionTransformer*Authors:[[KanWu]],[[HouwenPeng]],[[MinghaoChen]],[[JianlongFu]],[[HongyangChao]]初读印象comment::(iRPE)提出了专门用于图像的相对位置编码方法,code:Cream/iRPEatmain·mi......
  • Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition:使用大核卷
    Conv2Former:ASimpleTransformer-StyleConvNetforVisualRecognition*Authors:[[QibinHou]],[[Cheng-ZeLu]],[[Ming-MingCheng]],[[JiashiFeng]]Locallibrary初读印象comment::研究一种更有效的利用卷积编码空间特征的方法,利用卷积调制来简化自注意力操作......
  • Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解
    初读印象comment::(Swin-transformer)代码:https://github.com/microsoft/Swin-Transformer动机将在nlp上主流的Transformer转换到cv上。存在以下困难:nlp中单词标记是一个基本单元,但是视觉元素在尺度上有很大的变化。图像分辨率高,自注意力操作计算复杂度是图像大小的二次方......
  • Segmentation Transformer: Object-Contextual Representations for Semantic Segment
    SegmentationTransformer:Object-ContextualRepresentationsforSemanticSegmentation*Authors:[[YuhuiYuan]],[[XiaokangChen]],[[XilinChen]],[[JingdongWang]]Locallibrary初读印象comment::(OCRnet)聚焦于语义分割中的上下文聚合问题,利用物体类别的表......
  • 从滑动窗口到YOLO、Transformer:目标检测的技术革新
    本文全面回顾了目标检测技术的演进历程,从早期的滑动窗口和特征提取方法到深度学习的兴起,再到YOLO系列和Transformer的创新应用。通过对各阶段技术的深入分析,展现了计算机视觉领域的发展趋势和未来潜力。关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研......
  • Instruction-Following Agents with Multimodal Transformer
    概述提出了InstructRL,包含一个multimodaltransformer用来将视觉obs和语言的instruction进行编码,以及一个transformer-basedpolicy,可以基于编码的表示来输出actions。前者在1M的image-text对和NL的text上进行训练,后者跟踪了整个obs和act的历史,自回归地输出动作。问题纯语言......
  • Transformers实战——文本相似度
    文章目录一、改写文本分类1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型6.创建评估函数7.创建TrainingArguments8.创建Trainer9.模型训练10.模型评估11.模型预测二、交互/单塔模式1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型(区别)6.创建评估......
  • 【学习笔记】transformer 简札
    高铁心血来潮逼着自己把这个模型的结构看了一遍,不写下来会忘掉的Encoder输入是词向量。wordvector->[(multihead)self-attention->forward]×n->layernormalizationselfattention就是qkv矩阵乘法得到z,multiheadselfattention就是进行多个矩阵乘法然后把\(z_......