1.概述
二十多年来, 塞普·霍赫赖特 创举 长短期记忆 (LSTM) 架构在许多深度学习突破和实际应用中发挥了重要作用。从生成自然语言到为语音识别系统提供动力,LSTM 一直是人工智能革命背后的驱动力。
然而,即使是 LSTM 的创建者也认识到它们固有的局限性,导致它们无法充分发挥潜力。无法修改存储的信息、内存容量有限以及缺乏并行化等缺点为 Transformer 和其他模型的兴起铺平了道路,以超越 LSTM 来完成更复杂的语言任务。
但在最近的一项进展中,Hochreiter 和他的团队 NXAI 引入了一个新的变体,称为 扩展 LSTM (xLSTM) 解决这些长期存在的问题。最近的一篇研究论文中提出,xLSTM 建立在使 LSTM 如此强大的基本思想之上,同时通过架构创新克服了其关键弱点。
xLSTM 的核心是两个新颖的组件:指数门控和增强型记忆结构。指数门控可以更灵活地控制信息流,使 xLSTM 能够在遇到新上下文时有效地修改决策。同时,与传统标量 LSTM 相比,矩阵存储器的引入大大增加了存储容量。
但增强功能还不止于此。通过利用从大型语言模型借用的技术(例如并行性和块的残差堆叠),xLSTM 可以有效地扩展到数十亿个参数。这释放了它们对极长序列和上下文窗口进行建模的潜力——这是复杂语言理解的关键功能。
Hochreiter 最新创作的意义是巨大的。想象一下虚拟助手可以在长达数小时的对话中可靠地跟踪上下文。或者在广泛的数据训练后能够更稳健地推广到新领域的语言模型。应用程序遍及 LSTM 产生影响的各个领域——聊天机器人、翻译、语音接口、程序分析等等——但现在 xLSTM 的突破性功能得到了增强。
在这份深入的技术指南中,我们将深入了解 xLSTM 的架构细节,评估其新颖的组件,如标量和矩阵 LSTM、指数门控机制、内存结构等。您将从实验结果中获得见解,这些实验结果展示了 xLSTM 相对于最先进的架构(例如 Transformer 和最新的循环模型)的令人印象深刻的性能提升。
2. LSTM 的局限性
在我们深入了解 xLSTM 的世界之前,有必要了解传统 LSTM 架构所面临的限制。这些限制一直是 xLSTM 和其他替代方法发展背后的驱动力。
- 无法修改存储决策:LSTM 的主要限制之一是当遇到更相似的向量时,它很难修改存储的值。这可能会导致需要动态更新存储信息的任务性能不佳。
- 存储容量有限:LSTM 将信息压缩为标量单元状态,这可能会限制它们有效存储和检索复杂数据模式的能力,特别是在处理稀有标记或远程依赖性时。
- 缺乏 并行性: LSTM 中的内存混合机制涉及时间步之间的隐藏连接,强制顺序处理,阻碍计算的并行化并限制可扩展性。
这些限制为 Transformer 和其他在某些方面超越 LSTM 的架构的出现铺平了道路,特别是在扩展到更大的模型时。
3.xLSTM 架构
扩展 LSTM (xLSTM) 系列
xLSTM 的核心在于对传统 LSTM 框架的两个主要修改:指数门控和新颖的内存结构。这些增强功能引入了 LSTM 的两种新变体,称为 sLSTM(标量 LSTM)和 mLSTM(矩阵 LSTM)。
- . 长短期记忆网络:具有指数门控和内存混合的标量 LSTM
- 指数门控:sLSTM 结合了输入门和遗忘门的指数激活函数,可以更灵活地控制信息流。
- 标准化和稳定化:为了防止数值不稳定,sLSTM 引入了标准化器状态,用于跟踪输入门和未来忘记门的乘积。
- 内存混合:sLSTM 支持多个存储单元,并允许通过循环连接进行内存混合,从而实现复杂模式的提取和状态跟踪功能。
- . 毫升STM:具有增强存储能力的 Matrix LSTM
- 矩阵内存:mLSTM 使用矩阵存储器代替标量存储器单元,增加其存储容量并能够更有效地检索信息。
- 协方差更新规则:受双向关联存储器 (BAM) 启发,mLSTM 采用协方差更新规则来高效存储和检索键值对。
- 并行性:通过放弃内存混合,mLSTM 实现了完全并行性,从而能够在现代硬件加速器上进行高效计算。
sLSTM 和 mLSTM 这两个变体可以集成到残差块架构中,形成 xLSTM 块。通过剩余堆叠这些 xLSTM 块,研究人员可以构建针对特定任务和应用领域定制的强大 xLSTM 架构。
4.数学
传统 LSTM:
最初的 LSTM 架构引入了恒定误差轮播和门控机制来克服循环神经网络中的梯度消失问题。
LSTM 中的重复模块 – 来源
LSTM 存储单元更新由以下方程控制:
细胞状态更新:ct = ft ⊙ ct-1 + it ⊙ zt
隐藏状态更新: ht = ot ⊙ tanh(ct)
地点: