首页 > 其他分享 >SiMBA:基于Mamba的跨图像和多元时间序列的预测模型

SiMBA:基于Mamba的跨图像和多元时间序列的预测模型

时间:2024-03-31 10:44:19浏览次数:31  
标签:频谱 模型 建模 序列 Mamba SiMBA

这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。

语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然transformers通过其注意力网络已经证明了其跨领域的卓越性能,但注意力存在许多问题,包括低归纳偏置和输入序列长度的二次复杂度。

状态空间模型(ssm)在处理信息密集数据建模方面效率较低,特别是在计算机视觉等领域,并且在基因组数据等离散场景中面临挑战。为了解决典型状态空间模型难以有效处理长序列的问题,最近提出了一种选择性状态空间序列建模技术Mamba。但是Mamba却有稳定性问题,当扩展到计算机视觉数据集的大型网络时,训练损失不收敛。

来自微软的研究人员介绍了SiMBA,这是一种引入EinFFT进行通道建模的新架构。SiMBA体系结构将Mamba用于序列建模,并引入EinFFT作为一种新的通道建模技术。有效地解决了在扩展到大型网络时在Mamba中观察到的不稳定性问题。该方法突出了基于卷积模型、transformers模型、mlp混频器、频谱混频器模型和状态空间方法的各种模型。论文还介绍了将卷积与transformers或频谱方法相结合的混合模型。

SiMBA的信道混合包含三个主要组件:频谱变换、使用爱因斯坦矩阵乘法的频谱门控网络和逆频谱变换。EinFFT通过在复数表示上应用爱因斯坦矩阵乘法来利用频域信道混合。这使得能够提取具有增强的全局可见性和能量集中度的关键数据模式。Mamba结合MLP进行信道混合可以弥补小规模网络的性能差距,但对于大型网络可能存在同样的稳定性问题。结合EinFFT, Mamba解决了小型和大型网络的稳定性问题。

 https://avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb

标签:频谱,模型,建模,序列,Mamba,SiMBA
From: https://www.cnblogs.com/deephub/p/18106474

相关文章

  • 政安晨:【Keras机器学习实践要点】(十)—— 自定义保存和序列化
    目录导言涵盖的APISetup状态保存自定义构建和编译保存自定义结论政安晨的个人主页:政安晨欢迎 ......
  • java反序列化-CC1
    CC1目录CC11、Transformer接口2、Transformer的实现类ConstantTransformerChainedTransformerInvokerTransformer3、寻找调用链TransformedMap(功能理解)LazyMap(调用链分析)1、Transformer接口从Transformer接口开始,对于这个接口是这么介绍的:它被实现为一个将一个对象转换为......
  • 输出所有可能的栈的合法出栈序列
    voidlegalstack(tack*st,intin[],intout[],intlen,inti,intj){ intx; staticintnum=1; if(empty(st)&&j>=len) { cout<<"第"<<num++<<"种:"; for(inti=0;i<len;i++) { ......
  • 时间序列预测算法python全集合--深度学习
    共整理了60+个深度学习的时间序列预测算法,Python代码,包括多输入单输出,单输入单输出。深度学习算法主要为:LSTM,bilstm,grubigru,arima,ssa-arima,ceemdan,bp,elm,kelm,knn,mlp,slp,svm,XGBOOST,lightgbm,catboost,rf,lssvm,RNN,SARIMA,transformer等智能优化算法:SSA,WOA,AVOA,CS,DBO,FA,FWA,GW......
  • [题解]P1439 【模板】最长公共子序列
    P1439【模板】最长公共子序列题意简述给出\(1,2,…,n\)的两个排列\(P_1\)和\(P_2\),求它们的最长公共子序列。范围限制:\(n\le10^5\)。样例53214512345输出:3。思路简述这道题看似是最长公共子序列,但是发现如果用\(O(n^2)\)的复杂度实现\(LCS\)就会时......
  • AcWing 799. 最长连续不重复子序列
    原题链接:https://www.acwing.com/problem/content/801/题目分析用数组记录每个元素出现的次数,遍历以第i个元素为结尾的[i,j]区间的最长长度显然[i-1,j]必然达到最大,所以每次重复会发生在新增添的a[i]上,j右移直到到达i和暴力做法的区别就在于指针不会回退代码细节每次先把......
  • 序列式容器
    STL序列式容器序列式容器,即以线性排列来存储某一制定类型的数据,该类容器并不会自动对存储元素按照值的大小进行排序。序列式容器大致包括array,vector,deque,list,forward_list等,除此之外,stack和queue本质上也属于序列容器,不过是在deque的基础上形成,故更习惯称他们为容器适配器......
  • 代码随想录训练营Day31:● 理论基础 ● 455.分发饼干 ● 376. 摆动序列 ● 53. 最大子
    理论基础贪心基础455.分发饼干题目链接https://leetcode.cn/problems/assign-cookies/description/题目描述思路自己写的,因为没有事先对两个数组进行排序,所以出现了问题classSolution{publicintfindContentChildren(int[]g,int[]s){Arrays.s......
  • 本地class序列化用绕过高版本jdk的JNDI题目
    [HZNUCTF2023final]ezjava这道题,困扰许久,不是题目逻辑,而是ldap服务起不了。题目介绍:Trytofxxkit(Log4j打log4j?进网页,开局几个字,提示fastjson:1.2.48:尝试一下常用的log4j2payload打一打DNS测一下:{{urlenc(${jndi:dns://xxxxxxxxx})}}得到回显,可以看到版本为jd......
  • 【力扣】300. 最长递增子序列(DFS+DP两种方法实现)
    目录题目传送最长递增子序列[DFS方法]DFS方法思路图思路简述代码大家可以自行考虑有没有优化的方法最长递增子序列[DP]方法DP方法思路图思路简述代码方案题目传送原题目链接最长递增子序列[DFS方法]DFS方法思路图思路简述对于序列中的每一个数字只有选择......