聊聊RNN&LSTM

时间：2023-10-30 11:44:20浏览次数：41

标签：输出 RNN 权重矩阵聊聊 LSTM 计算公式

RNN

用于解决输入数据为，序列到序列(时间序列)数据，不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，即输入内容的上下文关联性强。

整体结构

x、o为向量，分别表示输入层、输出层的值；U、V为权重矩阵，U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W 是上一次的值 S(t-1) 作为这一次的输入的权重矩阵，S(t)是当前的隐藏层矩阵。

RNN层结构与计算公式

RNN层计算公式

RNN层正向传播

MatMul表示矩阵乘积。

这里的h也就是s，都是RNN层函数的输出结果。RNN层的处理函数是tanh，输出结果是h，因此RNN层具有"状态"，这也是其具有记忆性的原因。

RNN隐藏层的输出结果，也被称为隐藏状态或是隐藏状态向量，一般用h或s表示。

RNN层反向传播

蓝线表示反向传播的线路图

带来的问题

由于激活函数Tanh其反向传播时，会导致梯度为0或趋于很大的数值，导致梯度消失或爆炸。

LSTM

通过引入输入门、遗忘门和输出门，解决RNN模型下带来的梯度消失的问题。

整体结构

输出门的结果用o来表示，其计算公式如下：

遗忘门的结果用f表示，其计算公式如下：

输入门的结果用i表示，其计算公式如下：

遗忘门从上一时刻的记忆单元中删除了应该忘记的东西，但需要添加一些应当记住的新信息，新的记忆单元g，其计算公式如下：

要注意的是，不同的门输出所代表的意义不一样，因为其最后流向的地方不一样，分别是转换为了新的记忆单元c，新的隐藏状态h。
最终汇总后的整体结构如下

反向传播

蓝线代表反向传播路径，记忆单元的反向传播仅流过“+”和“×”节点。“+”节点将上游传来的梯度原样流出，所以梯度没有变化（退化）。

优化

LSTM的优化可以从三个方面

LSTM层的多层化
1. 在使用RNN创建高精度模型时，加深LSTM层（叠加多个LSTM层）的方法往往很有效。之前我们只用了一个LSTM层，通过叠加多个层，可以提高语言模型的精度。
基于Dropout抑制过拟合
1. 通过叠加LSTM层，可以期待能够学习到时序数据的复杂依赖关系。换句话说，通过加深层，可以创建表现力更强的模型，但是这样的模型往往会发生过拟合（overfitting）。
2. Dropout随机选择一部分神经元，然后忽略它们，停止向前传递信号。这种“随机忽视”是一种制约，可以提高神经网络的泛化能力。
权重共享
1. 共享权重可以减少需要学习的参数数量，从而促进学习。另外，参数数量减少，还能收获抑制过拟合的好处。
2. 绑定（共享）Embedding层和Affine层的权重的技巧在于权重共享。通过在这两个层之间共享权重，可以大大减少学习的参数数量。

标签：输出,RNN,权重,矩阵,聊聊,LSTM,计算公式
From： https://www.cnblogs.com/zhiyong-ITNote/p/17797422.html

SSA-BiLSTM麻雀算法优化双向长短期记忆神经网络的数据分类预测，多输入单输出模型
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......
【负荷预测】基于GA-LSTM遗传优化长短记忆网络的电力系统负荷预测算法（Matlab代码实现）
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
【BiLSTM-Adaboost预测】基于双向长短期记忆网络的Adaboost时间序列预测研究（matlab代
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
解密长短时记忆网络（LSTM）：从理论到PyTorch实战演示
本文深入探讨了长短时记忆网络（LSTM）的核心概念、结构与数学原理，对LSTM与GRU的差异进行了对比，并通过逻辑分析阐述了LSTM的工作原理。文章还详细演示了如何使用PyTorch构建和训练LSTM模型，并突出了LSTM在实际应用中的优势。关注TechLead，分享AI与云服务技术的全维度知识。作者拥有1......
聊聊多个节点实例数据同步如何触发
前言之前写过一篇文章聊聊在集群环境中本地缓存如何进行同步，今天聊的话题看着和那篇文章有点雷同，不过我们今天重点会放在方法论上，也不会拘泥于具体实现。在聊这个话题之前，大家可以思考一下，如果要实现多个实例数据同步触发，大家会怎么做？脑海里，是会浮现，我可以用消息队列或者定时器来......
毕业三年，月薪30K，我想跟你聊聊！
大家好，我是冰河~~很多读者私信问我，自己工作三年多了，随着工作年限的不断增长，感觉自己的技术水平与自己的工作年限严重不符。想跳槽出去换个新环境吧，又感觉自己的能力达不到心仪公司的标准，即使投了简历也没人来通知自己面试。就这样在原来的公司一天天的混日子，时间久了，感觉自己废了......
LSTM-CRF模型详解和Pytorch代码实现
在快速发展的自然语言处理领域，Transformers已经成为主导模型，在广泛的序列建模任务中表现出卓越的性能，包括词性标记、命名实体识别和分块。在Transformers之前，条件随机场(CRFs)是序列建模的首选工具，特别是线性链CRFs，它将序列建模为有向图，而CRFs更普遍地可以用于任意图。本文中crf......
《动手学深度学习 Pytorch版》 9.2 长短期记忆网络（LSTM）
解决隐变量模型长期信息保存和短期输入缺失问题的最早方法之一是长短期存储器（longshort-termmemory，LSTM）。它与门控循环单元有许多一样的属性。长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近20年。9.2.1门控记忆元为了记录附加的信息，长短期记......
GRLSTM：基于图的残差LSTM轨迹相似性计算《GRLSTM: Trajectory Similarity Computation
2023年10月18日，14:14。来不及了，这一篇还是看的翻译。论文：GRLSTM:TrajectorySimilarityComputationwithGraph-BasedResidualLSTM(需要工具才能访问)Github： AAAI2023的论文。摘要轨迹相似性的计算是许多空间数据分析应用中的一项关键任务。然而，现有的方法主要是......
架构师日记-聊聊开发必掌握的那些实践技能 | 京东云技术团队
一引言尽管软件开发一直致力于追求高效、可读性强、易于维护的特性，但这些特性却像是一个不可能三角，相互交织，此消彼长。就像底层语言（如汇编和C语言）能够保持高效的运行性能，但在可读性和维护性方面却存在短板和劣势；而高级语言（如Java和Python）在可读性和可维护性方面表现出色，但在执行......

聊聊RNN&LSTM

RNN

整体结构

RNN层结构与计算公式

RNN层计算公式

RNN层正向传播

RNN层反向传播

带来的问题

LSTM

整体结构

反向传播

优化

相关文章

赞助商

阅读排行