首页 > 其他分享 >深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

时间:2024-05-20 09:54:20浏览次数:28  
标签:残差 PyTorch xLSTM 记忆 引入 LSTM 门控

xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

xLSTM

xLSTM 是对传统 LSTM 的一种扩展,它通过引入新的门控机制和记忆结构来改进 LSTM,旨在提高 LSTM 在处理大规模数据时的表现和扩展性。以下是 xLSTM 相对于原始 LSTM 的几个主要区别:

  1. 指数门控:- xLSTM 引入了指数门控机制,这是一种新的门控技术,与传统的 sigmoid 门控不同。指数门控可以提供更动态的信息过滤能力,有助于改善记忆和遗忘过程。
  2. 记忆结构的修改:- sLSTM:单一记忆体系结构中加入了新的记忆混合技术。它仍然保持标量更新,但通过改进的混合方式提高了信息的存储和利用效率。- mLSTM:引入矩阵记忆,这允许并行处理并改善了存储容量。它使用了协方差更新规则,适合处理大规模并行数据,解决了 LSTM 在并行化方面的限制。
  3. 归一化和稳定化技术:- 为了防止指数门控引起的数值稳定性问题,xLSTM 在门控计算中引入了额外的归一化和稳定化步骤,例如使用最大值记录法来维持稳定。
  4. 残差块的集成:- xLSTM 将这些改进的 LSTM 单元集成到残差块中,这些残差块被进一步堆叠形成完整的网络架构。这种设计使得 xLSTM 能够更有效地处理复杂的序列数据。
  5. 性能和扩展性:- xLSTM 在性能上与最新的 Transformer 和状态空间模型相媲美,尤其是在大规模应用和长序列处理方面展现出优势。

总的来说,xLSTM 的设计目标是解决传统 LSTM 在处理大规模数据和长序列时面临的限制,如并行性差和存储容量有限,通过引入新的门控机制和记忆结构,使其在现代深度学习应用中更具竞争力。

 

https://avoid.overfit.cn/post/84b99c27b672442ba01a836994cb8ce6

标签:残差,PyTorch,xLSTM,记忆,引入,LSTM,门控
From: https://www.cnblogs.com/deephub/p/18201272

相关文章

  • pytorch 踩坑,TypeError: expected seqence object with len>_0 or a single integer_typ
    CSDN搬家失败,手动导出markdown后再导入博客园在看Faster-R-CNN复现代码(https://blog.csdn.net/weixin_44791964/article/details/105739918)的时候,发现推理阶段报错,Dataparallel无法gather参考https://discuss.pytorch.org/t/nn-dataparallel-typeerror-expected-sequence......
  • pytorch 转 tensorRT 踩的几个小坑_tensorrt engine set up failed
    CSDN搬家失败,手动导出markdown后再导入博客园1、版本不匹配[E][TRT]Layer:Where_51'soutputcannotbeusedasshapetensor.[E][TRT]Networkvalidationfailed.[E]Enginecreationfailed.[E]Enginesetupfailed.这实际是由于pytorch与TensorRT版本不匹......
  • Pytorch中torch.max()函数维度的说明
    对于函数torch.max(tensor,dim,keepdim=False),需要厘清两个概念一个是torch.max怎么比较的实际上是取被比较元素对应位置的最大值如果是在一个向量中比较,那每个元素都是【c】的形式,对应位置就是本身比较,宏观来讲就是取该向量最大元素。如果在一个二维矩阵中比较,被比较元素......
  • 安装Sublime Text3+pytorch虚拟环境
    01安装SublimeText3下载链接:更改安装路径,不要放c盘就好——>next勾选Addtoexplorercontextmenu——>next之后就一直next,直到出现下图,点击Finish安装就完成了02汉化Preferences——PackageControl——弹出下面的界面(输入in,出现红色方框内的内容时,回车)——......
  • 图神经网络入门示例:使用PyTorch Geometric 进行节点分类
    基于图的神经网络是强大的模型,可以学习网络中的复杂模式。在本文中,我们将介绍如何为同构图数据构造PyTorchData对象,然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。我们将使用来自BenedekRozemberczki,CarlAllen和RikSarkar于2019......
  • 基于GWO灰狼优化的CNN-LSTM-Attention的时间序列回归预测matlab仿真
    1.算法运行效果图预览优化前    优化后     2.算法运行软件版本matlab2022a  3.算法理论概述       时间序列回归预测是数据分析的重要领域,旨在根据历史数据预测未来时刻的数值。近年来,深度学习模型如卷积神经网络(ConvolutionalNeuralN......
  • pytorch调试时CUDA报错,如何精确定位
    由于pytorch的python语句执行和CUDA后端实际上是异步执行的,所以当CUDAruntime报错时,并不一定能正确地反映在python抛出的错误语句中,因此,可以添加一个环境变量来实现:CUDA_LAUNCH_BLOCKING=1这里再补充一些关于cuda和pytorch异步执行的知识,当你写了一句torch.mm(X,Y)时,实际上......
  • LSTM卷土重来!xLSTM:一举超越Mamba、Transformer!
    前言 LSTM:这次重生,我要夺回Transformer拿走的一切。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV方向的准研究生们,未来三年如何度过?招聘高光谱图像、语义分割、diffu......
  • MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类|
    原文链接:http://tecdat.cn/?p=26318原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于长短期记忆(LSTM)神经网络的研究报告,包括一些图形和统计输出。此示例说明如何使用长短期记忆(LSTM)网络对序列数据的每个时间步长进行分类。要训​​练深度神经网络对序列数据......
  • Windows 下 PyTorch 入门深度学习环境安装(CPU版本)
    Windows下PyTorch入门深度学习环境安装(CPU版本)一、安装Anaconda二、虚拟环境配置2.1基础命令列出虚拟环境condaenvlist创建虚拟环境https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/maincondacreate-n虚拟环境名字python=版本-c镜像地址激活环境conda......