李宏毅《机器学习》总结 - RNN & LSTM

时间：2024-01-29 21:13:30浏览次数：29

标签：gate RNN 李宏毅 memory input LSTM 输入

在 slot-filling 问题（如给一个句子，自己分析出时间、地点等）

如果只连着不同的 FC，那么会导致无法读出是 arrive 还是 leave 的情况，导致错误
因此，需要 NN 来考虑到整个句子的信息，也就是需要有 memory，这就是 RNN

RNN 原理

有了 memory，就可以初步解决同一个信息由于句子不同导致的意义不同的问题了
更进一步的，有这样的结构：

黄色代表输入，即每一个单词。绿色代表隐藏层，注意事实上只有一个网络，不同单词对应的网络的参数是相同的，橙色代表输出，是一个概率向量

在不同的单词的网络之间传递的 memory 除了可以从隐藏层得到之外，还可以从输出层得到，这对应了另外一种架构：

Bidirectional RNN

普通的 RNN 处理每个单词的时候只能获取其前面的信息，但是通过双向 RNN，可以得到其后面的信息。
简单来说就是训练两个 RNN，一个正向一个反向，再将两个 RNN 的同一个对应的隐藏层扔给输出层，就得到了输出。

LSTM

是 RNN 的改良。每一个位置有 4 个输入，除了数据的输入（input）之外，还有是否将 input gate 打开（输入进网络中）、是否要遗忘 memory 里的数据，是否要打开 output gate（输出到输出层中）

在 RNN 中，memory 只能记着上一层的隐藏层，但是 LSTM 中，能记着更久远的事情了，因此叫“long short-term ..”
具体的，在实作中，关于 input/output gate 是否打开，可以利用 sigmoid function 来实现，如果输入是一个负值，那么就可以认为相应的 gate 是关闭的（因为 \(f(z_i) \rightarrow 0\)）
另外，当 \(z_f>0\) 时在 memory 中的数据是要保存的，反之则是遗忘，因此应该叫做“keep gate” 而非 "forget gate" 更为恰当

关于如何进行输入的问题，也就是 \(z_i, z_o, z_f\) 是怎么得到的问题，可以这么看：
对于每一个 LSTM 的 cell（即上图）而言，都是有好几个原始输入变量的，原始输入变量线性组合得到 \(z_{xx}\)，而得到 \(z_{xx}\) 时的线性组合函数不同，因此得到了不同的输入。
以输入的几个原始变量 \((x_1,x_2,x_3)=(2,0,0)\) 为例：

绿色框代表 bias，也就是默认情况下 input gate 和 output gate 是关的，而 forget gate 是开的，不同的 \(z\) 对原始变量做 weighted sum（实际上这就是需要训练的网络），就得到了 \(z\) 的值
可以发现，当 \((2,0,0)\) 时，input/output gate 是关的，forget gate 是开的。
当 \((1,0,1)\) 时，经过计算可以得到 input 是关的，output gate 和 forget gate 是开的。

标签：gate,RNN,李宏毅,memory,input,LSTM,输入
From： https://www.cnblogs.com/SkyRainWind/p/17995305

李宏毅《机器学习》总结 - Self-attention
解决的问题：输入\(n\)个向量，输出相同个数的向量。（如，输入一个句子，输出句子中每个词的词性。每个单词转化成向量可以用one-hotvector、wordembedding方法等）一个比较初级的想法：将每个向量都连上去一个FC（fullyconnectednetwork），但是这样有个问题是，如果遇到一个句子中有两个相......
李宏毅《机器学习》总结 - CNN
使用场景：对图片进行分类首先，将图片变成向量。例如，对于一个彩色的\(N\timesN\)（这个N指的是像素个数）图片，其对应着一个\(N\timesN\times3\)的矩阵（其中3是图片的channel，在彩色图片中，每个像素由RGB构成，因此channel为3）一个初始的想法将这个矩阵拉长，变成一个向量，然后......
基于信号功率谱特征和GRNN广义回归神经网络的信号调制类型识别算法matlab仿真
1.算法运行效果图预览 2.算法运行软件版本MATLAB2022a 3.算法理论概述本课题，我们主要对MPSK和MFSK调制类型进行识别。在进行信号调制方式区分之前，首先需要对PSK和FSK进行区分，提出了一种基于信号功率谱的PSK和FSK调制方式的识别方法。信号的功率谱计算过程......
李宏毅《机器学习》总结 - 类神经网络
核心问题：CriticalPoint在GradientDescent的时候，如果遇到梯度为0的情况，导致无法继续optimization，这样的点叫做CritcalPoint如果最后优化的结果不好，则出现这样的点的原因有2个：一个是到localminima了，另一个是在驻点了（也叫鞍点，SaddlePoint）。现在主要关注的是如何判......
ICDM'23 BICE论文解读：基于双向LSTM和集成学习的模型框架
本文分享自华为云社区《ICDM'23BICE论文解读》，作者：云数据库创新Lab。导读本文《EfficientCardinalityandCostEstimationwithBidirectionalCompressor-basedEnsembleLearning》是由华为云数据库创新Lab联合电子科技大学数据与智能实验室发表在顶会ICDM’23的长文。ICDM......
Broodstock breeding behaviour recognition based on Resnet50-LSTM with CBAM atten
一区top，2022年ComputersandElectronicsinAgriculture分类题目：“基于CBAM注意机制Resnet50-LSTM的亲鱼繁殖行为识别”(Du等,2022,pp.-)(pdf)“BroodstockbreedingbehaviourrecognitionbasedonResnet50-LSTMwithCBAMattentionmechanism”(Du等,2022......
An improved LSTM-based model for identifying high working intensity load segment
一区topComputersandElectronicsinAgriculture题目：“基于改进lstm的拖拉机载荷谱高工作强度载荷段识别模型”(pdf)“AnimprovedLSTM-basedmodelforidentifyinghighworkingintensityloadsegmentsofthetractorloadspectrum”(pdf)分类问题针对的问题：......
RNN的应用范围：从基础研究到实用技术
1.背景介绍随着数据规模的不断增加，传统的机器学习模型已经无法满足需求。随着深度学习技术的发展，卷积神经网络（CNN）和循环神经网络（RNN）等模型逐渐成为主流。在图像处理、自然语言处理等领域取得了显著的成果。本文将从基础研究到实用技术的角度，探讨RNN的应用范围和挑战。1.1深度学习......
基于代码一步一步教你深度学习中循环神经网络(RNN)的原理
当谈到基于RNN（循环神经网络）的机器学习例子时，一个常见的任务是文本生成。RNN是一种能够处理序列数据的神经网络，它具有记忆能力。以下是一个基于RNN的文本生成例子，并给每一行添加了详细注释：1.importtorch2.importtorch.nnasnn3.importtorch.optimasoptim4.5.#定义......
从RNN到Transformmer
下面是整理的一个思维导图2010年Mikolov提出了RNN网络，RNN网络存在长距离依赖(梯度消失)，计算效率(RNN难以并行)两个问题2017年Transformmer网络结构问世，Transformer网络架构架构由AshishVaswani等人在AttentionIsAllYouNeed一文中提出，并用于机器翻译任务，和以往网络架构......

李宏毅《机器学习》总结 - RNN & LSTM

RNN 原理

Bidirectional RNN

LSTM

相关文章

赞助商

阅读排行