神经网络的梯度下降

在这篇博客中，讲的是实现反向传播或者说梯度下降算法的方程组

单隐层神经网络会有$W^{[1]}$，$b^{[1]}$，$W^{[2]}$，$b^{[2]}$这些参数，还有个$n_x$表示输入特征的个数，$n^{[1]}$表示隐藏单元个数，$n^{[2]}$表示输出单元个数。

在这个例子中，只介绍过的这种情况，那么参数:

矩阵$W^{[1]}$的维度就是($n^{[1]}, n^{[0]}$)，$b^{[1]}$就是$n^{[1]}$维向量，可以写成$(n^{[1]}, 1)$，就是一个的列向量。
矩阵$W^{[2]}$的维度就是($n^{[2]}, n^{[1]}$)，$b^{[2]}$的维度就是$(n^{[2]},1)$维度。

还有一个神经网络的成本函数，假设在做二分类任务，那么的成本函数等于：

Cost function:

公式：

$J(W^{[1]},b^{[1]},W^{[2]},b^{[2]}) = {\frac{1}{m}}\sum_{i=1}^mL(\hat{y}, y)$

loss function和之前做logistic回归完全一样。

训练参数需要做梯度下降，在训练神经网络的时候，随机初始化参数很重要，而不是初始化成全零。当参数初始化成某些值后，每次梯度下降都会循环计算以下预测值：

$\hat{y}^{(i)},(i=1,2,…,m)$

公式1.28：

$dW^{[1]} = \frac{dJ}{dW^{[1]}},db^{[1]} = \frac{dJ}{db^{[1]}}$

公式1.29：

${d}W^{[2]} = \frac{{dJ}}{dW^{[2]}},{d}b^{[2]} = \frac{dJ}{db^{[2]}}$

其中

公式1.30：

$W^{[1]}\implies{W^{[1]} - adW^{[1]}},b^{[1]}\implies{b^{[1]} -adb^{[1]}}$

公式1.31：

$W^{[2]}\implies{W^{[2]} - \alpha{\rm d}W^{[2]}},b^{[2]}\implies{b^{[2]} - \alpha{\rm d}b^{[2]}}$

正向传播方程如下（之前讲过）：

forward propagation：

(1)
$z^{[1]} = W^{[1]}x + b^{[1]}$
(2)
$a^{[1]} = \sigma(z^{[1]})$
(3)
$z^{[2]} = W^{[2]}a^{[1]} + b^{[2]}$
(4)
$a^{[2]} = g^{[2]}(z^{[z]}) = \sigma(z^{[2]})$

反向传播方程如下:

back propagation：

公式1.32：

$ dz^{[2]} = A^{[2]} - Y , Y = \begin{bmatrix}y^{[1]} & y^{[2]} & \cdots & y^{[m]}\ \end{bmatrix} $

公式1.33：

$ dW^{[2]} = {\frac{1}{m}}dz^{[2]}A $

公式1.34：

$ {\rm d}b^{[2]} = {\frac{1}{m}}np.sum({d}z^{[2]},axis=1,keepdims=True)$

公式1.35：

$ dz^{[1]} = \underbrace{W^{[2]T}{\rm d}z^{[2]}}_{(n,m)}\quad\underbrace{{g^{[1]}}{'}}_{activation ; function ; of ; hidden ; layer}\quad\underbrace{(z^{[1]})}_{(n,m)} $

公式1.36：

$dW^{[1]} = {\frac{1}{m}}dz^{[1]}x^{T}$

公式1.37：

${\underbrace{db^{[1]}}_{(n^{[1]},1)}} = {\frac{1}{m}}np.sum(dz^{[1]},axis=1,keepdims=True)$

上述是反向传播的步骤，注：这些都是针对所有样本进行过向量化，$Y$是$1×m$的矩阵；这里np.sum是python的numpy命令，axis=1表示水平相加求和，keepdims是防止python输出那些古怪的秩数$(n,)$，加上这个确保阵矩阵$db^{[2]}$这个向量输出的维度为$(n,1)$这样标准的形式。

目前为止，计算的都和Logistic回归十分相似，但当开始计算反向传播时，需要计算，是隐藏层函数的导数，输出在使用sigmoid函数进行二元分类。这里是进行逐个元素乘积，因为$W^{[2]T}dz^{[2]}$和$(z^{[1]})$这两个都为$(n^{[1]},m)$矩阵；

还有一种防止python输出奇怪的秩数，需要显式地调用reshape把np.sum输出结果写成矩阵形式。

以上就是正向传播的4个方程和反向传播的6个方程，这里是直接给出的。

标签：frac,descent,neural,公式,db,神经网络,dz,dW
From： https://www.cnblogs.com/oten/p/17843284.html

简单神经网络（py）
1importnumpy2#激活函数库3importscipy.special45importmatplotlib.pyplot67#neutralnetworkclassdefinition8classneutralNetwork:9def__init__(self,inputnodes,hiddennodes,outputnodes,learningrate):10#定义各个......
c4w1_卷积神经网络
卷积神经网络计算机视觉问题计算机视觉（computervision）是因深度学习而快速发展的领域之一，它存进了如自动驾驶、人脸识别等应用的发展，同时计算机视觉领域的发展还可以给其他领域提供思路。计算机视觉应用的实例：图片分类（识别是不是一只猫）、目标检测（检测途中汽车行人等）、图片风格......
c1w4_深层神经网络
深层神经网络什么是深层神经网络？深层的神经网络（DeepL-layerneuralnetwork）就是包含了更多隐藏层的神经网络。从某种意义上来说，logisticregression可以称为一层的神经网络“1layerNN”。当计算神经网络的层数，通常将输出层计算在内，而输出层不算，有一个隐藏层，就是2layerNN，以......
深度学习算法原理实现——自写神经网络识别mnist手写数字和训练模型
代码来自：https://weread.qq.com/web/reader/33f32c90813ab71c6g018fffkd3d322001ad3d9446802347《python深度学习》fromtensorflow.keras.datasetsimportmnistfromtensorflow.kerasimportoptimizersimporttensorflowastfimportnumpyasnpclassNaiveDense:d......
Decoupling the Depth and Scope of Graph Neural Networks
目录概符号说明Shadow-GNN代码ZengH.,ZhangM.,XiaY.,SrivastavaA.,MalevichA.,KannanR.,PrasannaV.,JinL.andChenR.Decouplingthedepthandscopeofgraphneuralnetworks.NIPS,2021.概为每个结点抽取一子图作为结点的代表,然后推理过程仅限定在子......
Python绘制神经网络模型的结构示意图的方法
本文介绍基于Python语言，对神经网络模型的结构进行可视化绘图的方法。最近需要进行神经网络结构模型的可视化绘图工作。查阅多种方法后，看到很多方法都比较麻烦，例如单纯利用graphviz模块，就需要手动用DOT语言进行图片描述，比较花时间；最终，发现利用第三方的ann_visualizer模块，可......
神经网络中的量化与蒸馏
前言本文介绍了深度学习中精简模型的技术：量化和蒸馏。本文转载自DeepHubIMBA作者：Aadityaura仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【......
python深度学习——一个简单的全连接神经网络，预测mnist手写数字
代码来自《python深度学习》第二章：fromtensorflow.keras.datasetsimportmnistfromtensorflowimportkerasfromtensorflow.kerasimportlayers(train_images,train_labels),(test_images,test_labels)=mnist.load_data()print(train_images.shape)print(len(trai......
不平衡数据集神经网络回归SMOTE、SMOGN算法：R语言代码
本文介绍基于R语言中的UBL包，读取.csv格式的Excel表格文件，实现SMOTE算法与SMOGN算法，对机器学习、深度学习回归中，训练数据集不平衡的情况加以解决的具体方法。在之前的文章SMOGN算法的Python实现：不平衡数据的深度学习回归中，我们介绍了基于Python语言中的smogn包，实现SMOGN算......
机器学习——深度循环神经网络
到目前为止，我们只讨论了具有一个单向隐藏层的循环神经网络。其中，隐变量和观测值与具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性，这就不是一个大问题。然而，对一个单层来说，这可能具有相当的挑战性。之前在线性模型中，我们通过添加更多的层来解决这个......

神经网络入门篇：神经网络的梯度下降（Gradient descent for neural networks）

神经网络的梯度下降

相关文章

赞助商

阅读排行