循环神经网络入门基础

标签：状态入门偏导神经网络循环记忆信息隐藏 RNN

文章和代码已经归档至【Github仓库：<https://github.com/timerring/dive-into-AI> 】或者公众号【AIShareLab】回复 神经网络基础 也可获取。

循环神经网络

序列数据

序列数据是常见的数据类型，前后数据通常具有关联性

例如 “Cats average 15 hours of sleep a day”

循环神经网络入门基础_数据

语言模型

语言模型是自然语言处理 (NLP, Natural Language Processing) 重要技术。

NLP中常把文本看为离散时间序列，一段长度为T的文本的词依次为 $循环神经网络入门基础_数据_02$ , 其中 $循环神经网络入门基础_语言模型_03$ 是\*\时间步 ( Time Step）\\*t 的输出或标签。

语言模型将会计算该序列概率 $循环神经网络入门基础_数据_04$ ，例如 Cats average 15 hours of sleep a day，这句话中 T = 8.

语言模型计算序列概率：

$循环神经网络入门基础_数据_05$

例如：P( 我, 在, 听, 课 ) = P(我) \* P（在｜我）\* P（听｜我，在）\* P（课｜我，在，听）

统计\*\语料库（Corpus）\\*中的词频，得到以上概率，最终得到P(我, 在, 听, 课)

缺点：时间步t的词需要考虑t -1步的词，其计算量随t呈指数增长。

RNN—循环神经网络（Recurrent neural network）

RNN 是针对序列数据而生的神经网络结构，核心在于循环使用网络层参数，避免时间步增大带来的参数激增，并引入\*\隐藏状态（Hidden State）\\*用于记录历史信息，有效处理数据的前后关联性。

循环神经网络入门基础_重置_06

\*\隐藏状态（Hidden State）\\用于记录历史信息，有效处理数据的前后关联性，\\激活函数采用Tanh，将输出值域限制在（-1，1），防止数值呈指数级变化。\\*可以进行如下对比：

循环神经网络入门基础_数据_07

RNN构建语言模型，实现文本生成。假设文本序列：“想”，“要”，“有”，“直”，“升”，“机”。

循环神经网络入门基础_数据_08

RNN特性：

循环神经网络的隐藏状态可以捕捉截至当前时间步的序列的历史信息；
循环神经网络模型参数的数量不随时间步的增加而增长。（一直是 $循环神经网络入门基础_数据_09$ 、 $循环神经网络入门基础_语言模型_10$ 、 $循环神经网络入门基础_数据_11$ ）

$循环神经网络入门基础_语言模型_12$

RNN的通过（穿越）时间反向传播（backpropagation through time）

循环神经网络入门基础_数据_13

有几条通路，就几项相加。

方便起见，一下分别称为式1-4.

$循环神经网络入门基础_数据_14$

如上，T=3。可以由第二个式子算出 $循环神经网络入门基础_重置_15$ 对于 $循环神经网络入门基础_数据_16$ 的偏导。

然后由第三个式子计算 $循环神经网络入门基础_重置_15$ 对于 $循环神经网络入门基础_重置_18$ 的偏导，注意其中的 $循环神经网络入门基础_重置_15$ 对于 $循环神经网络入门基础_数据_16$ 的偏导已经计算完成了，直接带入即可。

然后以此类推，得到一个 $循环神经网络入门基础_重置_15$ 对于 $循环神经网络入门基础_重置_18$ 的偏导的通式，见第四个式子。

这里可以用第四个通式计算一下 $循环神经网络入门基础_重置_15$ 对于 $循环神经网络入门基础_语言模型_24$ 的偏导，如下：

计算剩余两个参数，由于通路过多，因此这里再计算通路就相对来说复杂了，只需要采用反向传播的思想即可，将问题拆解。但是结果还是很复杂的，如下所示，计算 $循环神经网络入门基础_语言模型_26$ 的梯度，使用了 $循环神经网络入门基础_重置_18$ 的偏导，同时如上，求 $循环神经网络入门基础_重置_18$ 的偏导还会涉及 $循环神经网络入门基础_重置_29$ 的偏导,递归下去...梯度的计算穿越了时间。

方便起见，一下分别称为式5-6.

$循环神经网络入门基础_重置_30$

因此会存在一个问题：梯度随时间t呈指数变化，易引发梯度消失或梯度爆炸。(例如 $循环神经网络入门基础_数据_09$ ，见式4 $循环神经网络入门基础_重置_32$ 涉及一个次方问题，那么 $循环神经网络入门基础_数据_09$ < 1会使最终趋于0，引发梯度消失，而若 $循环神经网络入门基础_数据_09$ > 1会使最终趋于无穷，引发梯度爆炸)。