长短期记忆(LSTM)网络是如何解决RNN中的长期依赖问题的？

时间：2024-10-08 23:47:08浏览次数：11

长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的递归神经网络（Recurrent Neural Network, RNN），它通过设计一种巧妙的架构来解决传统RNN在处理长期依赖问题时遇到的梯度消失或梯度爆炸问题。LSTM的关键创新在于其内部的记忆单元和三个门控机制：输入门、遗忘门和输出门，这些组件协同工作以控制信息流，并允许模型学习到数据中的长期模式。

1. 记忆单元

LSTM的核心是记忆单元，它可以看作是一个存储器，用于保存长时间跨度的信息。每个记忆单元都包含一个状态向量(C_t)，这个状态可以被保留、更新或部分遗忘。记忆单元的状态在时间上流动，从一个时间步传递到下一个时间步，使得网络能够捕捉并记住跨越多个时间步的重要信息。

2. 输入门

输入门决定当前时间步哪些新的输入信息需要被添加到记忆单元中。这一步骤涉及将当前输入(x_t)和前一隐藏状态(h_{t-1})作为输入，然后应用一个Sigmoid激活函数生成一个0到1之间的值，该值决定了新信息的重要性程度。接着，使用tanh激活函数处理当前输入，得到一个新的候选记忆状态(\tilde{C}_t)。最后，将Sigmoid的结果与(\tilde{C}_t)相乘，以确定实际写入记忆单元的新信息量。

3. 遗忘门

遗忘门负责确定前一时间步的记忆单元中哪些信息应该被丢弃。同样地，遗忘门也接受当前输入和前一隐藏状态作为输入，并通过Sigmoid激活函数产生一个介于0和1之间的遗忘向量。这个向量与前一记忆单元状态(C_{t-1})逐元素相乘，从而实现对不再相关的信息进行“遗忘”。

4. 更新步骤

更新操作结合了来自输入门和遗忘门的信息。首先，计算出的新候选记忆状态(\tilde{C}t)与输入门产生的结果逐元素相乘，表示要加入记忆单元的新信息；同时，前一记忆单元状态(C{t-1})与遗忘门的结果逐元素相乘，表示要从记忆单元中移除的信息。这两部分相加即得更新后的记忆单元状态(C_t)。

5. 输出门

输出门的作用是确定当前时间步的输出以及下个时间步的隐藏状态。它同样基于当前输入和前一隐藏状态，经过Sigmoid激活后得到一个控制信号。与此同时，最新的记忆单元状态(C_t)会先经过tanh激活再与输出门的控制信号逐元素相乘，最终形成当前时间步的隐藏状态(h_t)及输出。

通过上述机制，LSTM能够有效地选择性地记住或忘记信息，即使是在非常长的时间序列中也是如此。这种能力对于处理具有长期依赖性的任务至关重要，例如语音识别、文本生成或者金融市场预测等。

应用实例 - 时间序列预测

假设我们正在尝试利用LSTM模型来预测某个金融资产的价格走势。由于金融市场的价格往往受到多种因素的影响，包括历史价格、交易量甚至宏观经济指标等，因此这里存在明显的长期依赖关系。如果我们直接使用标准RNN，可能会因为梯度消失问题而无法准确学习到这些远距离的关联。

但是，当采用LSTM时，情况就大不相同了。LSTM的记忆单元可以在多个时间步内持续保持重要信息，比如某段时间内的市场趋势。例如，如果一段时间内出现了一种特定的价格形态，LSTM可以通过其遗忘门忽略掉不重要的波动，同时通过输入门捕获并存储这一关键模式。随后，在未来的预测中，LSTM可以根据这些长期记忆来做出更加准确的判断，而不是仅仅依赖最近几个时间点的数据。

此外，LSTM还非常适合处理那些包含季节性和周期性成分的时间序列。例如，股票市场通常会在一年中的某些特定月份表现出不同的行为模式，LSTM可以通过调整其记忆单元的内容来适应这些变化，从而提高预测性能。通过这种方式，LSTM不仅解决了RNN难以捕捉长期依赖的问题，而且还能更好地理解复杂的时序结构，为金融领域的深度学习应用提供了强大的支持。

总之，LSTM通过引入专门设计的记忆单元和门控机制，有效克服了传统RNN在处理长序列数据时所面临的挑战，使其成为处理具有复杂依赖结构的时间序列问题的理想选择。

标签：状态,RNN,长短期,记忆,单元,LSTM,输入,遗忘
From： https://blog.csdn.net/qq_24766857/article/details/142741852

《神经网络》—— 循环神经网络RNN（Recurrent Neural Network）
文章目录一、RNN简单介绍二、RNN基本结构1.隐藏中的计算2.输出层的计算3.循环三、RNN优缺点1.优点2.缺点一、RNN简单介绍循环神经网络（RecurrentNeuralNetwork,RNN）是一种用于处理序列数据的神经网络架构。与传统的前馈神经网络（FeedforwardNeuralNetwork......
RNN（循环神经网络）简介及应用
一、引言在深度学习领域，神经网络被广泛应用于各种任务，从图像识别到语音合成。但对于序列数据处理的任务，如自然语言处理（NLP）、语音识别或时间序列预测等，传统的前馈神经网络（FeedforwardNeuralNetworks）显得力不从心。这是因为序列数据中存在着时间上的依赖关系，即序列中的每个元......
风速预测（五）基于Pytorch的EMD-CNN-LSTM模型
往期精彩内容：时序预测：LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较全是干货|数据集、学习资料、建模资源分享！拒绝信息泄露！VMD滚动分解+Informer-BiLSTM并行预测模型-CSDN博客风速预测（一）数据集介绍和预处理_风速数据在哪里下载-CSDN博客风速预测（二）基于Pytorch......
【独家首发】鲸鱼算法WOA优化Transformer-LSTM负荷数据回归预测【含Matlab源码 6386期
......
LSTM模型改进实现多步预测未来30天销售额
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目......
VMD-BKA-CNN-BiLSTM四模型多变量时间序列光伏功率预测一键对比 Matlab代码
基于VMD-BKA-CNN-BiLSTM、VMD-CNN-BiLSTM、VMD-BiLSTM、BiLSTM四模型多变量时间序列光伏功率预测一键对比(仅运行一个main即可)[原创未发表]Matlab代码赠送BKA原文献每个模型的预测结果和组合对比结果都有！运行步骤：1.先运行main1进行VMD分解2.在运行main2进行四模型一......
Matlab 基于Transformer-LSTM-SVM多变量时序预测（多输入单输出）
基于Transformer-LSTM-SVM多变量时序预测（多输入单输出）你先用你就是创新！！！1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.评价指标包含：RMSE、R2、MSE、MAE、MBE、MAPE、RPD。3.Transformer作为一种创新的神经网络结构，深受欢迎。采用Transformer编码器......
Java中的时间序列分析：从ARIMA到LSTM的应用
Java中的时间序列分析：从ARIMA到LSTM的应用大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在机器学习和数据科学领域，时间序列分析是一项重要的技术。它广泛应用于金融、预测分析、传感器数据处理等多个场景。在本文中，我们将重点探讨两种常用的时间......
RLHF 的启示：微调 LSTM 能更好预测股票？
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在财务预测领域，准确预测股票价格是一项具有挑战性但至关重要的任务。传统方法通常难以应对股票市场固有的波动性和复杂性。这篇文章介绍了一种创新方法，该方法将长短期记忆（LSTM）网络与基于评分的......
风速预测（三）EMD-LSTM-Attention模型
往期精彩内容：时序预测：LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较全是干货|数据集、学习资料、建模资源分享！拒绝信息泄露！VMD滚动分解+Informer-BiLSTM并行预测模型-CSDN博客风速预测（一）数据集介绍和预处理_风速数据在哪里下载-CSDN博客风速预测（二）基于Pytorch......