首页 > 其他分享 >LSTM模型

LSTM模型

时间:2023-06-01 14:35:35浏览次数:36  
标签:RNN 模型 cell state 记忆 gate LSTM

摘自:http://www.voidcn.com/article/p-ntafyhkn-zc.html

(二)LSTM模型

1.长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出;

2.下面两个图可以看出RNN与LSTM的区别:

(1)RNN

(2)LSTM

PS:

(1)部分图形含义如下:

(2)RNN与LSTM最大的区别在于LSTM中最顶层多了一条名为“cell state”的信息传送带,其实也就是信息记忆的地方;

3.LSTM的核心思想:

(1)理解LSTM的核心是“cell state”,暂且名为细胞状态,也就是上述图中最顶的传送线,如下:

(2)cell state也可以理解为传送带,个人理解其实就是整个模型中的记忆空间,随着时间而变化的,当然,传送带本身是无法控制哪些信息是否被记忆,起控制作用的是下面将讲述的控制门(gate);

(3)控制门的结构如下:主要由一个sigmoid函数跟点乘操作组成;sigmoid函数的值为0-1之间,点乘操作决定多少信息可以传送过去,当为0时,不传送,当为1时,全部传送;

(4)LSTM中有3个控制门:输入门,输出门,记忆门;

4.LSTM工作原理:

(1)forget gate:选择忘记过去某些信息:

(2)input gate:记忆现在的某些信息:

(3)将过去与现在的记忆进行合并:

(4)output gate:输出

PS:以上是标准的LSTM的结构,实际应用中常常根据需要进行稍微改善;

5.LSTM的改善

(1)peephole connections:为每个门的输入增加一个cell state的信号

(2)coupled forget and input gates:合并忘记门与输入门

 

标签:RNN,模型,cell,state,记忆,gate,LSTM
From: https://blog.51cto.com/u_11908275/6393740

相关文章

  • LSTM入门学习——结合《LSTM模型》文章看
    摘自:https://zybuluo.com/hanbingtao/note/581764长短时记忆网络的思路比较简单。原始RNN的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。那么,假如我们再增加一个状态,即c,让它来保存长期的状态,那么问题不就解决了么?如下图所示:新增加的状态c,称为单元状态(cellstate)。我们把上......
  • Unity转出FBX模型(Exporter插件)
    Unity转出FBX模型为了解决在Unity场景修改过导出的模型,以后给美工修改不了预制体的问题Unity版本要求:2021.3.6f1c1(包括但不限于此版本以上)下载插件场景中选中模型任意模型点击导出FBX导出模型设置路径......
  • 扩散模型 - 简介、DDPM
    扩散模型1扩散模型(DM)扩散模型(DiffusionModel)起源于非均衡热动力学(non-equilibriumthermodynamics),是一类基于概率似然(likelihood)的生成模型。当前对扩散模型的研究主要围绕三种主流的实现:去噪扩散概率模型(DenoisingDiffusionProbabilisticModels/DDPMs)基于分数的生成......
  • Django模型字段default='' 含义
    是Django模型字段定义中一个参数,用于指定模型字段的默认值. 详细解释:在创建新的模型实例时,若没有为phone字段提供具体的值,那么该字段将被默认设置为空字符串. 例:my_object=MyModel.objects.create(name='John'),中没有为phone字段提供具体值,所以phone字段将被设......
  • TCP/IP 协议体系结构模型
    TCP/IP协议体系结构模型OSI模型通过一系列协议描述了理想的网络通信。TCP/IP并不直接对应于此模型。TCP/IP或者将几个OSI层组合为一个层,或者根本不使用某些层。下表显示了OracleSolaris:实现的TCP/IP层。该表列出了从最顶层(应用层)到最底层(物理网络层)的各层。表 1–2TC......
  • R语言状态空间模型和卡尔曼滤波预测酒精死亡人数时间序列|附代码数据
    原文链接:http://tecdat.cn/?p=22665最近我们被客户要求撰写关于状态空间模型的研究报告,包括一些图形和统计输出。状态空间建模是一种高效、灵活的方法,用于对大量的时间序列和其他数据进行统计推断摘要本文介绍了状态空间建模,其观测值来自指数族,即高斯、泊松、二项、负二项和伽......
  • 背景 | 基于 Transformers 的编码器-解码器模型
    !pipinstalltransformers==4.2.1!pipinstallsentencepiece==0.1.95Vaswani等人在其名作Attentionisallyouneed中首创了基于transformer的编码器-解码器模型,如今已成为自然语言处理(naturallanguageprocessing,NLP)领域编码器-解码器架构的事实标准。最近基......
  • Revit二次开发系列教程01-如何在Revit中创建模型过程的理解
    目录01案例02步骤讲解03关键类理解04总结05源码地址01案例创建一个结构墙usingAutodesk.Revit.Attributes;usingAutodesk.Revit.DB;usingAutodesk.Revit.UI;usingSystem.Linq;namespaceExampleBasic{[Transaction(TransactionMode.Manual)][Regener......
  • Generative AI 新世界 | 大语言模型(LLMs)在 Amazon SageMaker 上的动手实践
    在上一篇《GenerativeAI新世界:大型语言模型(LLMs)概述》中,我们一起探讨了大型语言模型的发展历史、语料来源、数据预处理流程策略、训练使用的网络架构、最新研究方向分析(AmazonTitan、LLaMA、PaLM-E等),以及在亚马逊云科技上进行大型语言模型训练的一些最佳落地实践等。本期文章......
  • yolotv5和resnet152模型预测
    我已经训练完成了yolov5检测和resnet152分类的模型,下面开始对一张图片进行检测分类。首先用yolo算法对猫和狗进行检测,然后将检测到的目标进行裁剪,然后用resnet152对裁剪的图片进行分类。首先我有以下这些训练好的模型 猫狗检测的,猫的分类,狗的分类 我的预测文件my_detect.p......