Step-by-step to LSTM: 解析LSTM神经网络设计原理

标签：输出 RNN 梯度神经网络 step Step 记忆 LSTM 时刻

Ps：喂喂喂，你萌不要光收藏不点赞呀_(:з」∠)_

emmmm...

搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗？想知道simple RNN是如何一步步的走向了LSTM吗？觉得LSTM的工作机制看不透？恭喜你打开了正确的文章！

零、前置知识1:

在上一篇文章《前馈到反馈：解析RNN》中，小夕从最简单的无隐藏层的前馈神经网络引出了简单的循环神经网络：

Step-by-step to LSTM: 解析LSTM神经网络设计原理_神经网络

它就是无隐藏层的循环神经网络，起名叫“simple RNN”。

这种方式即在每个时刻做决策的时候都考虑一下上一个时刻的决策结果。画出图来就是酱的：

Step-by-step to LSTM: 解析LSTM神经网络设计原理_激活函数_02

其中圆球里的下半球代表两向量的内积，上半球代表将内积结果激活

虽然通过这种简单反馈确实可以看出每个时间点的决策会受前一时间点决策的影响，但是似乎很难让人信服这竟然能跟记忆扯上边！

想一下，人的日常行为流程是这样的。比如你在搭积木，那么每个时间点你的行为都会经历下面的子过程：

1、眼睛看到现在手里的积木。
2、回忆一下目前最高层的积木的场景。
3、结合1和2的信息来做出当前时刻积木插到哪里的决策。

相信聪明的小伙伴已经知道我要表达的意思啦。第1步手里的积木就是当前时刻的外部输入X；第2步就是调用历史时刻的信息/记忆；第3步就是融合X和历史记忆的信息来推理出决策结果，即RNN的一步前向过程的输出y(t)。

有没有更加聪明的小伙伴惊奇的注意到第2步！！！我们在回忆历史的时候，一般不是简单的回忆上一个积木的形状，而是去回忆一个更加模糊而宏观的场景。在这个例子中，这个场景就是最近几次行为所产生出的抽象记忆——即“积木最高层的地形图”！

也就是说，人们在做很多时序任务的时候，尤其是稍微复杂的时序任务时，潜意识的做法并不是直接将上个时刻的输出y(t-1)直接连接进来，而是连接一个模糊而抽象的东西进来！这个东西是什么呢？

当然就是神经网络中的隐结点h啊！也就是说，人们潜意识里直接利用的是一段历史记忆融合后的东西h，而不单单是上一时间点的输出。而网络的输出则取自这个隐结点。所以更合理的刻画人的潜意识的模型应该是这样的：

Step-by-step to LSTM: 解析LSTM神经网络设计原理_循环神经网络_03

记忆在隐单元中存储和流动，输出取自隐单元

这种加入了隐藏层的循环神经网络就是经典的RNN神经网络！即“standard RNN”。

RNN从simple到standard的变动及其意义对于本文后续内容非常重要哦。

零、前置知识2:

在上一篇文章《从前馈到反馈：循环神经网络（RNN）》中简单讲解和证明过，由于在误差反向传播时，算出来的梯度会随着往前传播而发生指数级的衰减或放大！而且这是在数学上板上钉钉的事情。因此，RNN的记忆单元是短时的。

一、如何无损的运输梯度信息？

好啦，那我们就借鉴前辈设计RNN的经验，从simple版本开始，即无隐藏层的、简单完成输出到输入反馈的网络结构开始，去设计一个全新的、可以解决梯度爆炸消失问题从而记住长距离依赖关系的神经网络吧！

那么如何让梯度随着时间的流动不发生指数级消失或者爆炸呢？

好像想起来挺难的，但是这个问题可能中学生会解答！那就是让算出来的梯度恒为1！因为1的任何次方都是1嘛(￣∇￣)

所以按照这个搞笑的想法，我们把要设计的长时记忆单元记为c（以下全部用c指代长时记忆单元），那么我们设计出来的长时记忆单元的数学模型就是这样子喽：

Step-by-step to LSTM: 解析LSTM神经网络设计原理_激活函数_04

这样的话，误差反向传播时的导数就恒定为1啦～误差就可以一路无损耗的向前传播到网络的前端，从而学习到遥远的前端与网络末端的远距离依赖关系。

Step-by-step to LSTM: 解析LSTM神经网络设计原理_神经网络_05

路人：Excuse me？

不要急不要急，反正假设我们的c中存储了信息，那么c就能把这个信息一路带到输出层没问题吧？在T时刻算出来的梯度信息存储在c里后，它也能把梯度一路带到时刻0而无任何损耗也没问题吧？对吧(￣∇￣)

所以信息的运输问题解决了，那么就要解决对信息进行装箱和卸车的问题。

Step-by-step to LSTM: 解析LSTM神经网络设计原理_神经网络_06

Step-by-step to LSTM: 解析LSTM神经网络设计原理_激活函数_07

嗯～由于输入门只会在必要的时候开启，因此大部分情况下公式【4】可以看成C(t)=C(t-1)，也就是我们最理想的状态。由此加性操作带来的梯度爆炸也大大减轻啦，梯度消失更更更轻了。

三、频繁装填带来的问题

等等，爱思考的同学可能会注意到一个问题。万一神经网络读到一段信息量很大的文本，以致于这时输入门欣喜若狂，一直保持大开状态，狼吞虎咽的试图记住所有这些信息，会发生什么呢？

显然就会导致c的值变的非常大！

要知道，我们的网络要输出的时候是要把c激活的（参考公式【0.3】），当c变的很大时，sigmoid、tanh这些常见的激活函数的输出就完全饱和了！比如如图tanh：

Step-by-step to LSTM: 解析LSTM神经网络设计原理_激活函数_08

当c很大时，tanh趋近于1，这时c变得再大也没有什么意义了，因为饱和了！脑子记不住这么多东西！

这种情况怎么办呢？显然relu函数这种正向无饱和的激活函数是一种选择，但是我们总不能将这个网络输出的激活函数限定为relu吧？那也设计的太失败啦！

那怎么办呢？

其实想想我们自己的工作原理就知道啦。我们之所以既可以记住小时候的事情，也可以记住一年前的事情，也没有觉得脑子不够用，不就是因为我们。。。爱忘事嘛。所以还需要加一个门用来忘事！这个门就叫做“遗忘门”吧。这样每个时刻到来的时候，记忆要先通过遗忘门忘掉一些事情再考虑要不要接受这个时刻的新信息。

Step-by-step to LSTM: 解析LSTM神经网络设计原理_激活函数_09

参考文献：

1.Hochreiter S, Schmidhuber J. Long Short-TermMemory[J]. Neural Computation,
1997, 9(8): 1735-1780.
2. Gers F A, Schmidhuber J, Cummins F, et al.Learning to Forget: Continual Prediction with
LSTM[J]. Neural Computation,2000, 12(10): 2451-2471.
3. Gers F A,Schraudolph N N, Schmidhuber J, etal. Learning precise timing with lstm
recurrent networks[J]. Journal of MachineLearning Research, 2003, 3(1):
115-143.
4. A guide to recurrent neural networks and backpropagation. Mikael Bod ́en.
5. http://colah.github.io/posts/2015-08-Understanding-LSTMs/6. 《Supervised Sequence Labelling with Recurrent Neural Networks》Alex Graves
7. 《Hands on machine learning with sklearn and tf》Aurelien Geron
8. 《Deep learning》Goodfellow et.

标签：输出,RNN,梯度,神经网络,step,Step,记忆,LSTM,时刻
From： https://blog.51cto.com/xixiaoyao/7081103