首页 > 其他分享 >深度学习之GRU网络

深度学习之GRU网络

时间:2023-02-08 00:22:24浏览次数:37  
标签:输出 GRU 重置 网络 参数 深度 LSTM

https://www.cnblogs.com/jiangxinyang/p/9376021.html

 

1、GRU概述

  GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。

  在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门。具体结构如下图所示:

    

  图中的zt和rt分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集 h~tℎ~� 上,重置门越小,前一状态的信息被写入的越少。

 

2、GRU前向传播

  根据上面的GRU的模型图,我们来看看网络的前向传播公式:

    

    

    

    

    

  其中[]表示两个向量相连,*表示矩阵的乘积。

 

3、GRU的训练过程

  从前向传播过程中的公式可以看出要学习的参数有Wr、Wz、Wh、Wo。其中前三个参数都是拼接的(因为后先的向量也是拼接的),所以在训练的过程中需要将他们分割出来:

    

    

    

  输出层的输入:

    

  输出层的输出:

    

  在得到最终的输出后,就可以写出网络传递的损失,单个样本某时刻的损失为:

    

  则单个样本的在所有时刻的损失为:

    

  采用后向误差传播算法来学习网络,所以先得求损失函数对各参数的偏导(总共有7个):

    

    

    

    

    

    

    

  其中各中间参数为:

    

    

    

    

    

  在算出了对各参数的偏导之后,就可以更新参数,依次迭代知道损失收敛。

  概括来说,LSTM和CRU都是通过各种门函数来将重要特征保留下来,这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数,因此在参数的数量上也是要少于LSTM的,所以整体上GRU的训练速度要快于LSTM的。不过对于两个网络的好坏还是得看具体的应用场景。

标签:输出,GRU,重置,网络,参数,深度,LSTM
From: https://www.cnblogs.com/chinasoft/p/17100249.html

相关文章

  • R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视
    全文链接:http://tecdat.cn/?p=30360最近我们被客户要求撰写关于网络购物的研究报告,包括一些图形和统计输出。随着网络的迅速发展,依托于网络的购物作为一种新型的消费方式......
  • 信息收集_网络扫描_nmap
    信息收集_网络扫描nmap参考文章参考文章更多参考目标说明-iL<inputname>(从列表或文件输入)-iR<hostnum>(随机选择生成目标数量)--exclude<host1,host2>(排除......
  • 深度学习的常见概念
    常见的网络结构卷积层与池化层通常交替出现,也有多个卷积层后一个池化层。卷积加池化的组合重复M次后,提取到所有特征,再用K个全连接层将特征映射到O个输出特征;再经过一个......
  • Docker基础及网络
    目录:云计算的服务模式1、LaaS2、Paas3、Saas最早的虚拟化架构常用的虚拟产品Docker概述容器化优点Docker与虚拟机的区别Docker与open......
  • Oracle VM VirtualBox网络在主机模式下实现访问外网
    提前条件:虚拟机网络已设置为主机模型目标是将能上网的网卡共享给虚拟主机的网卡  操作步骤:1.在主机上打开能上网的网卡,上面是WLAN,打开属性 2.切换到共享,选择......
  • 2019年ICPC南昌网络赛 J. Distance on the tree(树链剖分+主席树 查询路径边权第k大)
    DSM(DataStructureMaster)oncelearnedabouttreewhenhewaspreparingforNOIP(NationalOlympiadinInformaticsinProvinces)inSeniorHighSchool.Sowhen......
  • 全景剖析阿里云容器网络数据链路(三):Terway ENIIP
    本系列文章由余凯执笔创作,联合作者:阿里云容器服务 谢石对本文亦有贡献前言近几年,企业基础设施云原生化的趋势越来越强烈,从最开始的IaaS化到现在的微服务化,客户的颗粒......
  • 深度学习炼丹-数据标准化
    前言一般机器学习任务其工作流程可总结为如下所示pipeline。在工业界,数据预处理步骤对模型精度的提高的发挥着重要作用。对于机器学习任务来说,广泛的数据预处理一般有四......
  • 计算机网络概述
    计算机网络概述计算机网络的定义计算机网络将地理位置相互独立的计算机资源协调管理实现资源共享计算机网络组成资源子网:提供传输的数据通信子网:提供传输节点与通......
  • 网络安全等级保护测评工作流程及工作内容
    一、网络安全等级保护测评过程概述网络安全等级保护测评工作过程包括四个基本测评活动:测评准备活动、方案编制活动、现场测评活动、报告编制活动。而测评相关方之间的沟......