首页 > 其他分享 >Retentive Networks Meet Vision Transformers, 视觉RetNet

Retentive Networks Meet Vision Transformers, 视觉RetNet

时间:2023-12-10 21:57:16浏览次数:34  
标签:Transformers 标记 RetNet 视觉 Meet 推理 衰减 Retentive

alias: Fan2023
tags: RetNet
rating: ⭐
share: false
ptype: article

RMT: Retentive Networks Meet Vision Transformers


初读印象

comment:: (RMT)Retentive Network(RetNet)因其显式衰减机制而在自然语言处理中受到关注,但它不适合基于图像的任务。本文提出了保留性自我注意力 (reSA),这是一种专为视觉模型设计的双向二维显性衰减形式注意力。

Why

NLP中RetNet提高了推理速度。在 RetNet 中,显式衰减机制是专为语言数据设计的,表现为单向、一维的建模衰减过程,为模型提供了基于距离变化的先验知识。除此之外,RetNet 还采用了线性注意,用门激活取代了自注意中的softmax。这两个因素使 RetNet 具有很高的灵活性和良好的性能,使其能够通过三种操作形式适应并行训练和递归推理(自回归推理)的要求。

以上特点不能直接用于视觉模型,图像中的标记需要双向、二维建模。此外,虽然语言模型是并行训练的,但它们必须以顺序的方式用于自回归推理。这与视觉主干不同,后者在训练和推理过程中都使用相同的并行形式。

What

RetNet

RetNet以循环的方式考虑序列建模问题:

Pasted image 20231121165145在为了并行训练,以上公式改为:Pasted image 20231121165857
]

  • 变量$θ_n$定义为$e^{inΩ}$,其中 i 是虚数单位,n 是参数,Ω 是一个常数。
  • $D\in\mathbb{R}^{|x|\times|x|}$包含因果掩蔽和指数衰减:
    • 如果 n 大于或等于 m,则 $d_{nm}$ 等于 $γ^ (n-m)$,其中 γ是衰减因子;否则, $d_{nm}$ 等于 0。

ReSA

去除因果

语言任务有因果性质,所以RetNet的保留是单项的,每个标记只能关注前面的标记,不能关注后面的标记。而图像任务没有标记关系。

Pasted image 20231121171141####2D特化
使用曼哈顿距离作为2D的距离

Pasted image 20231121171559

$(x_n, y_m)$是第n个点的坐标。
Pasted image 20231121171815####分解式ReSA
前几个阶段中,视觉token太多了,复杂度比较高,因此提出分解ReSA为图像的两个轴。

Pasted image 20231121182559

最后加入局部信息
Pasted image 20231121183521Pastedimage 20231121183605

How

Pasted image 20231121183836

标签:Transformers,标记,RetNet,视觉,Meet,推理,衰减,Retentive
From: https://www.cnblogs.com/tifuhong/p/17893298.html

相关文章

  • 华为云开源 | 线下meetup · 中国人民大学站顺利收官
    北京,11月29日下午,华为云开源团队受邀在中国人民大学成功举办了一场以开源为主题的线下meetup。华为云多个技术领域的技术专家一同出席,为高校学子带来了一场备受期待的演讲。值得一提的是,本次议题的确定方式跟以往有所不同,为了让演讲内容与参会者需求适配性更强,华为云开源策划团队在......
  • LLM 学习笔记-transformers库的 PreTrainedModel 和 ModelOutput 到底是什么?
    闲言碎语我在刚开始接触huggingface(后简称hf)的transformers库时候感觉很冗杂,比如就模型而言,有PretrainedModel,AutoModel,还有各种ModelForClassification,ModelForCausalLM,AutoModelForPreTraining,AutoModelForCausalLM等等;不仅如此,还设计了多到让人头皮发麻的各......
  • Google Colab 现已支持直接使用 transformers 库
    GoogleColab,全称Colaboratory,是GoogleResearch团队开发的一款产品。在Colab中,任何人都可以通过浏览器编写和执行任意Python代码。它尤其适合机器学习、数据分析和教育目的。从技术上来说,Colab是一种托管式Jupyter笔记本服务。用户无需设置,就可以直接使用,同时还能获得......
  • 无依赖安装sentence-transformers
    安装pipinstall--no-cache-dirtorch==1.8.0+cpu-fhttps://download.pytorch.org/whl/torch_stable.htmlpipinstalltransformerstqdmnumpyscikit-learnscipynltksentencepiecepipinstall--no-depssentence-transformers可以使用pipdeptree查看依赖......
  • OpenHarmony Meetup北京站招募令
    OpenHarmony Meetup城市巡回北京站火热来袭!!日期:2023年11月25日14:00地点:中国科学院软件园区五号楼B402与OpenHarmony技术大咖近距离互动,分享技术见解,结交志同道合的朋友!活动主题聚焦OpenHarmony开源未来,诚邀您莅临,一起交流与探讨~亮点:1. 技术深讨论:深入探讨OpenHarmony开源前景,激......
  • OpenHarmony Meetup北京站招募令
    OpenHarmony Meetup城市巡回北京站火热来袭!!日期:2023年11月25日14:00地点:中国科学院软件园区五号楼B402与OpenHarmony技术大咖近距离互动,分享技术见解,结交志同道合的朋友!活动主题聚焦OpenHarmony开源未来,诚邀您莅临,一起交流与探讨~亮点:1. 技术深讨论:深入探讨OpenHarmony开源前景,......
  • 自然语言处理预训练—— 来自Transformers的双向编码器表示(BERT)
    我们已经介绍了几种用于自然语言理解的词嵌入模型。在预训练之后,输出可以被认为是一个矩阵,其中每一行都是一个表示预定义词表中词的向量。事实上,这些词嵌入模型都是与上下文无关的。让我们先来说明这个性质。 从上下文无关到上下文敏感ELMo(EmbeddingsfromLanguageModels)是......
  • WorkPlus Meet视频会议系统,可私有化部署,保障内部数据安全
    WorkPlusMeet作为一款私有化音视频会议平台,具有高度安全性和部署灵活性,能够根据参会人数进行灵活的调配,这样企业可以有效控制会议成本,避免资源浪费。同时,WorkPlusMeet平台支持多种功能,满足不同场景下的视频会议需求。其中包括屏幕共享功能,可以让与会人员方便地分享自己的屏幕内容......
  • Cost Aggregation with Transformers for Sparse Correspondence-读书笔记
    CostAggregationwithTransformersforSparseCorrespondence:2022背景:该论文结合了SuperGlue和CATs,将里面所有手工制作的部分都代替了。将CATs引入该模型,用Transformer取代手工制作的成本聚合方法,用于具有自关注层全局接受域的可学习成本聚合。(PS:成本聚合:成本聚合是指在立......
  • 倒计时2天!和上百位Zabbix用户在武汉Meetup见!
    8位演讲嘉宾认真准备彩排,100+Zabbix用户报名参会, 让我们十分期待本周六!倒计时2天,Zabbix官方将首次来到武汉与大家见面!Meetup邀请到长江证券、中南财经政法大学、某城商行、社区专家、Zabbix大中华区培训师以及Zabbix合作伙伴带来一手干货和实践分享。设置QA环节供各位朋友直接......