首页 > 其他分享 >LSTM卷土重来之Vision-LSTM横空出世!!

LSTM卷土重来之Vision-LSTM横空出世!!

时间:2024-06-08 20:04:49浏览次数:27  
标签:Transformer ViL 横空出世 xLSTM 参数 GPT LSTM Vision



在Transformer诞生三年后,谷歌将这一自然语言处理的重要研究扩展到了视觉领域,也就是Vision Transformer。


 


GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952
 

随后,ViT被广泛用作计算机视觉中的通用骨干。

这种跨界应用同样适用于最近发布的xLSTM。

享誉数十年的LSTM最近被扩展为一个可扩展且性能优良的架构——xLSTM,通过指数门控和可并行化的矩阵内存结构克服了LSTM长期存在的限制。

现在,这一成果已经扩展到视觉领域。

在最近的论文中,Sepp Hochreiter等人推出了Vision-LSTM(ViL)。ViL包含一系列xLSTM块,其中奇数块从上到下处理补丁token序列,偶数块则从下到上处理。

作者希望新架构能够撼动Transformer在语言模型领域的统治地位。

「我们的新架构优于基于SSM的视觉架构,也优于ImageNet-1K分类中的优化ViT模型。值得注意的是,在公平的比较中,ViL的表现优于经过多年超参数调整和Transformer改进的ViT训练pipeline。」

对于需要高分辨率图像以获得最佳性能的任务,如语义分割或医学成像,ViL极具应用潜力。

在这些情况下,Transformer因自注意力的二次复杂性而导致计算成本较高,而ViL的线性复杂性不存在这种问题。

Vision-LSTM(ViL)是一个用于计算机视觉任务的通用骨干,它基于xLSTM块的残差构建。



与ViT类似,ViL首先通过共享线性投影将图像分割成非重叠的补丁,然后向每个补丁token添加可学习的定位嵌入。

ViL的核心是交替的mLSTM块,这些块是完全可并行化的,并配备了矩阵内存和协方差更新规则。

奇数mLSTM块从左上到右下处理补丁token,而偶数块则从右下到左上处理。

研究团队在ImageNet-1K上进行了实验:该数据集包含130万张训练图像和5万张验证图像,每张图像属于1000个类别之一。



对比实验集中在使用序列建模骨干的模型上,这些模型在参数数量大致相当的情况下是可比较的。



他们在224x224分辨率上训练ViL模型,使用余弦衰减调度,1e-3的学习率训练了800个周期(tiny, tiny+)或400个周期(small, small+, base)。

该团队还探索了四向设计,这指的是按行(两个方向)和按列(两个方向)遍历序列。双向仅按行遍历序列(两个方向)。

 ViL 块的不同方式:

  •  普通且单向的 xLSTM 块未能达到期待的性能,因为 xLSTM 的自回归性质并不适合图像分类。
     

  •  以双向方式遍历块 —— 即在每个块中引入第二个 mLSTM 层,该层向后遍历序列(类似于 Vim),提高了性能,但也需要更多的参数和 FLOPS。
     

  •  共享前向和后向 mLSTM 的参数使模型在参数上更高效,但仍然需要更多的计算并超载这些参数,而这最终也会导致性能下降。
     

  •  使用交替块在保持计算和参数效率的同时提高了性能。

更多研究细节,请参考原论文。



推荐阅读:



如何免费使用GPT-4o?如何升级GPT...



新架构Mamba-2正式发布!!真实版“man, what can i say”!!



黎曼猜想取得重大进展!!

标签:Transformer,ViL,横空出世,xLSTM,参数,GPT,LSTM,Vision
From: https://blog.csdn.net/ElevenSakura/article/details/139549966

相关文章

  • Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列
    %步骤1:准备数据%假设你已经准备好了股票价格的训练数据和测试数据%训练数据:train_data,包含n个训练样本,每个样本有m个时间步长的特征%训练标签:train_labels,包含n个训练样本的目标值(股票价格)%测试数据:test_data,包含k个测试样本,每个样本有m个时间步长的特征%测试标......
  • Pyramid Vision Transformer, PVT(ICCV 2021)原理与代码解读
    paper:PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutionsofficialimplementation:GitHub-whai362/PVT:OfficialimplementationofPVTseries存在的问题现有的VisionTransformer(ViT)主要设计用于图像分类任务,难以直接用......
  • 基于CNN卷积神经网络的金融数据预测matlab仿真,带GUI界面,对比BP,RBF,LSTM
    1.程序功能描述基于CNN卷积神经网络的金融数据预测matlab仿真,带GUI界面,对比BP,RBF,LSTM. 2.测试软件版本以及运行结果展示MATLAB2022A版本运行   3.核心程序............................................................functioncnnnumgradcheck(net,x,y......
  • 【基于LSTM的多输出数据回归预测】Matlab代码
    文章目录前言一、LSTM的基本原理二、多输出回归预测模型架构三、示例代码1.读入数据并划分数据集2.运行结果总结前言  在当前的数据驱动时代,预测未来的趋势、需求、资源分配等成为了许多行业关键决策的基石。长短期记忆网络(LongShort-TermMemory,LSTM)作为一种......
  • 基于双向长短时记忆神经网络结合多头注意力机制BiLSTM-Mutilhead-Attention实现柴油机
    %加载数据集和标签load(‘diesel_dataset.mat’);%假设数据集存储在diesel_dataset.mat文件中data=diesel_dataset.data;labels=diesel_dataset.labels;%数据预处理%这里假设你已经完成了数据的预处理,包括特征提取、归一化等步骤%划分训练集和测试集[tra......
  • 基于BERT-BILSTM的中文情感识别
            欢迎来到BERT-BiLSTM中文情感识别项目!我们利用BERT模型提取文本语义特征,结合BiLSTM网络学习时序信息,显著提升中文情感识别性能。为解决训练时间长问题,我们部署在GPU环境,加速模型训练。项目提供可视化中文情感识别系统,欢迎贡献代码、建议或数据,共同优化模型,让中......
  • 基于CNN+LSTM深度学习网络的时间序列预测matlab仿真,并对比CNN+GRU网络
    1.算法运行效果图预览  2.算法运行软件版本MATLAB2022A  3.算法理论概述      时间序列预测是数据分析中的一个重要分支,它涉及到对未来事件的预测,基于历史数据中的模式和趋势。在深度学习领域,卷积神经网络(CNN)和循环神经网络(RNN)的组合,特别是结合长短时记忆......
  • Android Studio ERROR: Installed Build Tools revision 34.0.0 is corrupted. Remove
    AndroidStudio错误提示:ERROR:InstalledBuildToolsrevision34.0.0iscorrupted.RemoveandinstallagainusingtheSDKManager.解决办法:在C:\Users\Administrator\AppData\Local\Android\Sdk\build-tools\34.0.0目录中找到d8.bat,将文件名修改为dx.bat在C:\Us......
  • 基于情感分析的LSTM预测股票走势
    目录一.LSTM二.股票数据 三.文本数据 四.文本数据情感分析五.数据合并,归一化分析 六.对变量进行相关性分析 七.基于lstm进行股票价格预测一.LSTM        在金融时间序列分析中,长短期记忆网络(LSTM)因其能够捕捉数据中的长期依赖关系而被广泛采用。本文就不......
  • Learning Transferable Visual Models From Natural Language Supervision
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!Proceedingsofthe38thInternationalConferenceonMachineLearning,PMLR139,2021.  Abstract 1.IntroductionandMotivatingWork 2.Approach 2.1.CreatingaSufficientlyLargeDataset ......