GRU原理及其实现

https://www.bilibili.com/video/BV1jm4y1Q7uh/?spm_id_from=333.788&vd_source=91219057315288b0881021e879825aa3

同等情况下GRU的参数是LSTM的0.75倍

公式

1-z_t保留当前候选者，z_t保留上一时刻的部分，公式中的*表示按位置相乘

查看网络模型的参数数目

GRU约为LSTM的0.75倍

输入参数

都是3维的

输出参数

API实现

batch_size,T,i_size,h_size = 2,3,4,5
input = torch.randn(batch_size,T,i_size) # 输入序列
h0 = torch.randn(batch_size,h_size)

# 用pytorch的api实现
gru_layer = nn.GRU(i_size,h_size,batch_first=True)
output,h_final = gru_layer(input,h0.unsqueeze(0))
print(output)

自定义

def gru_forward(input,initial_states,w_ih,w_hh,b_ih,b_hh):
    prev_h = initial_states
    bs,T,i_size = input.shape
    h_size = w_ih.shape[0] // 3 # 只有只有r，z，n门有w，而且这些w是堆叠在一起的
    
    # w是二维张量,而input和initial_states都是带有batch的三维张量
    # 所以需要两个w进行扩维
    batch_w_ih = w_ih.unsqueeze(0).tile(bs,1,1)
    batch_w_hh = w_hh.unsqueeze(0).tile(bs,1,1)
    
    output = torch.zeros(bs,T,h_size) # GRU网络的输出
    
    for t in range(T):
        x = input[:,t,:] # t时刻的GRU cell的输入特征向量 [bs,i_size]
        w_times_x = torch.bmm(batch_w_ih,x.unsqueeze(-1)) # [bs,3*h_size,1]
        w_times_x = w_times_x.squeeze(-1) # [bs,3*h_size]
        
        w_times_h_prev = torch.bmm(batch_w_hh,prev_h.unsqueeze(-1)) # [bs,3*h_size,1]
        w_times_h_prev = w_times_h_prev.squeeze(-1) # [bs,3*h_size]
        
        # 重置门
        r_t = torch.sigmoid(w_times_x[:,:h_size]+w_times_h_prev[:,:h_size]+b_ih[:h_size]+b_hh[:h_size])
        # 更新门
        z_t = torch.sigmoid(w_times_x[:,h_size:2*h_size]+w_times_h_prev[:,h_size:2*h_size]+b_ih[h_size:2*h_size]+b_hh[h_size:2*h_size])
        # 候选门
        n_t = torch.tanh(w_times_x[:,2*h_size:3*h_size] +b_ih[2*h_size:3*h_size]+r_t*(w_times_h_prev[:,2*h_size:3*h_size] + b_hh[2*h_size:3*h_size]))
        # 增量更新，含有隐藏状态的
        prev_h = (1-z_t)*n_t + z_t*prev_h
        
        output[:,t,:] = prev_h
        
        return output,prev_h

# 调用自定义
output_custom,h_final_custom = gru_forward(input,h0,gru_layer.weight_ih_l0,gru_layer.weight_hh_l0,gru_layer.bias_ih_l0,gru_layer.bias_hh_l0)
print(output_custom)

查看两个是否一致

torch.allclose(output,output_custom)

标签：GRU,及其,times,ih,hh,原理,prev,size
From： https://www.cnblogs.com/bzwww/p/16805766.html

JavaWeb对于C3P0链接池的CURD实例原理详解
一.java对于C3P0链接池的详解1.1C3P0是什么？c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。1.2C3P0工作原理开源JDBC连接池......
深入剖析Redis系列： Redis集群模式搭建与原理详解
前言在Redis3.0之前，使用哨兵（sentinel）机制来监控各个节点之间的状态。RedisCluster是Redis的分布式解决方案，在3.0版本正式推出，有效地解决了Redis在分布式 ......
Kubernetes快速实战与核心原理剖析
K8S概览1.1K8S是什么？K8S官网文档：https://kubernetes.io/zh/docs/home/K8S是Kubernetes的全称，源于希腊语，意为“舵手”或“飞行员”，官方称其是：用于自动部署、扩展......
03-Go的执行原理及Go的常用命令
go的源码文件分为三类：命令源码文件，库源码文件，测试源码文件命令源码文件：后缀.go的文件，一个目录下，只能有一个main的入口，否则build或install会报错。库源码文件：普通的源码......
RANSAC的基本原理（最小二乘法拟合的改进版）
转载：https://zhuanlan.zhihu.com/p/62238520 RANSAC简介RANSAC(RAndom SAmple Consensus,随机采样一致)算法是从一组含有“外点”(outliers)的数据中正确估计数......
mybatis-plugin插件执行原理
mybatis-plugin插件执行原理今天主要是在看mybatis的主流程源码，其中比较感兴趣的是mybatis的plugin功能，这里主要记录下mybatis-plugin的插件功能原理。plugin集合列表：在......
进入python的世界_day17_python基础——了解模块、如何使用和导入模块、包的原理
一、模块介绍1.什么是模块其实我们前一阵已经接触过了，importxxx、fromxximportxxx 能够有一定功能的集合体就是模块，比如有某些功能的py文件，包含这个文件的......
【Python】第3章-7 求最大值及其下标
本题要求编写程序，找出给定的n个数中的最大值及其对应的最小下标（下标从0开始）。输入格式:输入在第一行中给出一个正整数n（1<n≤10）。第二行输入n个整数，用空格分开。输出格式......
（面向对象）已知长方形类Rectangle,在构造方法中有私有实例变量宽__width和高__height，有a
样例输入34 样例输出3*4=124*5=20未定义宽,未定义高样例输入67 样例输出6*7=427*8=56未定义宽,未定义高解题代码#coding=gbkclassRec......
Vue.nextTick核心原理
相信大家在写vue项目的时候，一定会发现一个神奇的api，Vue.nextTick。为什么说它神奇呢，那是因为在你做某些操作不生效时，将操作写在Vue.nextTick内，就神奇的生效了。那这是什么......

GRU原理及其实现

GRU原理及其实现

公式

查看网络模型的参数数目

输入参数

输出参数

API实现

自定义

相关文章

赞助商

阅读排行