吴恩达深度学习deeplearning.ai学习笔记（一）3.9 3.10 3.11

3.9 神经网络的梯度下降法

对于单隐层神经网络而言，主要参数就是 $w^{[1]},b^{[1]},w^{[2]},b^{[2]}$ ，并且输入特征 $x$ 的维度可以记为 $n_x=n^{[0]}$ ，第一层有 $n^{[1]}$ 个隐藏单元，第二层有 $n^{[2]}$ 个输出单元，目前仅仅见过只有一个输出单元的情况； $w^{[1]}$ 的维度是 $(n^{[1]},n^{[0]})$ ， $b^{[1]}$ 的维度是 $(n^{[1]},1)$ ， $w^{[2]}$ 的维度是 $(n^{[2]},n^{[1]})$ ， $b^{[2]}$ 的维度是 $(n^{[2]},1)$ ，成本函数为：

$J(w^{[1]},b^{[1]},w^{[2]},b^{[2]})=\frac{1}{m}\sum_{i=1}^{m}L(a^{[2]},y)$

训练神经网络时，随机初始化参数很重要，而不是全令其为0；

每个梯度下降循环都要计算 $1\sim m$ 的预测值，即 $\hat{y}^{(i)},i=1,2,\cdots,m$ ，然后要计算导数，即 $dw^{[1]}=\frac{\partial J}{\partial w^{[1]}},db^{[1]},dw^{[2]},db^{[2]},\cdots$ ，最后更新参数，即 $w^{[1]}=w^{[1]}-\alpha dw^{[1]},b^{[1]}=b^{[1]}-\alpha db^{[1]},\cdots$

正向传播过程为：

$Z^{[1]}=w^{[1]}X+b^{[1]}$

$A^{[1]}=\sigma(Z^{[1]})$

$Z^{[2]}=w^{[2]}A^{[1]}+b^{[2]}$

$A^{[2]}=\sigma(Z^{[2]})$

那么反向传播求导数的方程怎么写？

假设我们在做二元分类，则 $g^{[2]}(z^{[2]})=\sigma(z^{[2]})$ ，方程如下：

版本：m个样本Back Prop

$dZ^{[2]}=A^{[2]}-Y$

$dw^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}$

$db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)$

#注意 $np.sum$ 指令用于对矩阵的一个维度进行求和， $axis=1$ 表示水平方向相加求和，而 $keepdims$ 开关就是防止输出这些秩为1的数组，使 $db^{[2]}$ 和 $b^{[2]}$ 一样是 $(n^{[2]},1)$ 维矩阵；

$dZ^{[1]}=w^{[2]T}dZ^{[2]}\ast {g^{[1]}}'(Z^{[1]})$

#注意符号 $\ast$ 是指逐个元素乘积， $z^{[1]}$ 是一个 $(n^{[1]},m)$ 维的矩阵， $w^{[2]T}dZ^{[2]}$ 也是一个 $(n^{[1]},m)$ 维的矩阵；

$dw^{[1]}=\frac{1}{m}dZ^{[1]}X^T$

$db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)$

3.10 反向传播的直观学习

单样本Back Prop计算：

以上是针对单样本下的计算图，老吴的这个图很乱，只要看红色箭头即可，每个导数都能求出来，按反向传播一步步来：

$da^{[2]}=-\frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}}$

$dz^{[2]}=a^{[2]}-y$

$dw^{[2]}=dz^{[2]}a^{[1]T}$

$db^{[2]}=dz^{[2]}$

$da^{[1]}=w^{[2]T}dz^{[2]}$

$dz^{[1]}=w^{[2]T}dz^{[2]}\ast {g^{[1]}}'(z^{[1]})$

$dw^{[1]}=dz^{[1]}a^{[0]T}$

$db^{[2]}=dz^{[1]}$

（1）（2）式怎么证明？

显然，前面已经推导过了，这里不过是把前面的 $a$ 改成了 $a^{[2]}$ 而已；

（3）（4）式怎么证明？

$w^{[2]}$ 是 $(n^{[2]},n^{[1]})$ 维，这里 $n^{[2]}=1$ ，所以 $w^{[2]},dw^{[2]}$ 都是 $(1,n^{[1]})$ 维；

$w^{[2]}=w_1^{[2]T}=\begin{bmatrix} w_{11}^{[2]} &w_{12}^{[2]} &\cdots & w_{1n^{[1]}}^{[2]} \end{bmatrix}$

$dw^{[2]}=\begin{bmatrix} dw_{11}^{[2]} &dw_{12}^{[2]} &\cdots & dw_{1n^{[1]}}^{[2]} \end{bmatrix}$

$a^{[1]}=\begin{bmatrix} a_1^{[1]}\\ a_2^{[1]}\\ \vdots\\ a_{n^{[1]}}^{[1]} \end{bmatrix}$

且 $b^{[2]},z^{[2]}$ 都是实数，故由矩阵乘法可得：

$z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}=w_{11}^{[2]}a_1^{[1]}+w_{12}^{[2]}a_2^{[1]}+\cdots+w_{1n^{[1]}}^{[2]}a_{n^{[1]}}^{[1]}+b^{[2]}$

$\therefore dw_{11}^{[2]}=\frac{\partial L(a^{[2]},y)}{\partial w_{11}^{[2]}}=\frac{\partial L(a^{[2]},y)}{\partial z^{[2]}}\frac{\partial z^{[2]}}{\partial w_{11}^{[2]}}=dz^{[2]}a_1^{[1]}$

$dw_{12}^{[2]}=dz^{[2]}a_2^{[1]}$

$\cdots$

$dw_{1n^{[1]}}^{[2]}=dz^{[2]}a_{n^{[1]}}^{[1]}$

$\therefore dw^{[2]}=\begin{bmatrix} dz^{[2]}a_1^{[1]} &dz^{[2]}a_2^{[1]} &\cdots & dz^{[2]}a_{n^{[1]}}^{[1]} \end{bmatrix}\\=dz^{[2]}\begin{bmatrix} a_1^{[1]} &a_2^{[1]} &\cdots & a_{n^{[1]}}^{[1]} \end{bmatrix}=dz^{[2]}a^{[1]T}$

（5）（6）式怎么证明？

$a^{[1]},da^{[1]}$ 都是 $(n^{[1]},1)$ 维，故写为：

$da^{[1]}=\begin{bmatrix} da_1^{[1]}\\ da_2^{[1]}\\ \vdots\\ da_{n^{[1]}}^{[1]} \end{bmatrix}$

由前面 $z^{[2]}=w_{11}^{[2]}a_1^{[1]}+w_{12}^{[2]}a_2^{[1]}+\cdots+w_{1n^{[1]}}^{[2]}a_{n^{[1]}}^{[1]}+b^{[2]}$ 可得：

$da_1^{[1]}=dz^{[2]}w_{11}^{[2]}$

$da_2^{[1]}=dz^{[2]}w_{12}^{[2]}$

$\cdots$

$da_{n^{[1]}}^{[1]}=dz^{[2]}w_{1n^{[1]}}^{[2]}$

$\therefore da^{[1]}=\begin{bmatrix} dz^{[2]}w_{11}^{[2]}\\ dz^{[2]}w_{12}^{[2]}\\ \vdots\\ dz^{[2]}w_{1n^{[1]}}^{[2]} \end{bmatrix}=dz^{[2]}\begin{bmatrix} w_{11}^{[2]}\\ w_{12}^{[2]}\\ \vdots\\ w_{1n^{[1]}}^{[2]} \end{bmatrix}=dz^{[2]}w^{[2]T}=w^{[2]T}dz^{[2]}$

这里我都有点看不懂了，原来是：

$w^{[2]}=w_1^{[2]T}=\begin{bmatrix} w_{11}^{[2]} &w_{12}^{[2]} &\cdots &w_{1n^{[1]}}^{[2]} \end{bmatrix}$

$z^{[1]},dz^{[1]}$ 都是 $(n^{[1]},1)$ 维，故写为：

$dz^{[1]}=\begin{bmatrix} dz_1^{[1]}\\ dz_2^{[1]}\\ \vdots\\ dz_{n^{[1]}}^{[1]} \end{bmatrix}$

所以要分析 $dz^{[1]}$ ，首先分析 $dz_1^{[1]}$ ：

$dz_1^{[1]}=\frac{\partial L(a^{[2]},y)}{\partial z_1^{[1]}}=\frac{\partial L(a^{[2]},y)}{\partial a_1^{[1]}}\frac{\partial a_1^{[1]})}{\partial z_1^{[1]}}=da_1^{[1]}\cdot {g^{[1]}}'(z_1^{[1]})$

$dz_2^{[1]}=da_2^{[1]}\cdot {g^{[1]}}'(z_2^{[1]})$

$\cdots$

$dz_{n^{[1]}}^{[1]}=da_{n^{[1]}}^{[1]}\cdot {g^{[1]}}'(z_{n^{[1]}}^{[1]})$

$\therefore dz^{[1]}=\begin{bmatrix} da_1^{[1]}\cdot {g^{[1]}}'(z_1^{[1]})\\ da_2^{[1]}\cdot {g^{[1]}}'(z_2^{[1]})\\ \vdots\\ da_{n^{[1]}}^{[1]}\cdot {g^{[1]}}'(z_{n^{[1]}}^{[1]}) \end{bmatrix}=\begin{bmatrix} da_1^{[1]}\\ da_2^{[1]}\\ \vdots\\ da_{n^{[1]}}^{[1]} \end{bmatrix}\ast \begin{bmatrix} {g^{[1]}}'(z_1^{[1]})\\ {g^{[1]}}'(z_2^{[1]})\\ \vdots\\ {g^{[1]}}'(z_{n^{[1]}}^{[1]}) \end{bmatrix}\\=da^{[1]}\ast {g^{[1]}}'(z^{[1]})=w^{[2]T}dz^{[2]}\ast {g^{[1]}}'(z^{[1]})$

（7）（8）式怎么证明？

$\because z^{[1]}=w^{[1]}x+b^{[1]}$

$\therefore db^{[1]}=dz^{[1]}$

$w^{[1]}=\begin{bmatrix} w_1^{[1]T}\\ w_2^{[1]T}\\ \vdots\\ w_{n^{[1]}}^{[1]T} \end{bmatrix}=\begin{bmatrix} w_{11}^{[1]} &w_{12}^{[1]} &\cdots & w_{1n^{[0]}}^{[1]}\\ w_{21}^{[1]} &w_{22}^{[1]} &\cdots & w_{2n^{[0]}}^{[1]}\\ \vdots& \vdots & & \vdots\\ w_{n^{[1]}1}^{[1]}& w_{n^{[1]}2}^{[1]} &\cdots & w_{n^{[1]}n^{[0]}}^{[1]} \end{bmatrix}$

$dw^{[1]}=\begin{bmatrix} dw_{11}^{[1]} &dw_{12}^{[1]} &\cdots & dw_{1n^{[0]}}^{[1]}\\ dw_{21}^{[1]} &dw_{22}^{[1]} &\cdots & dw_{2n^{[0]}}^{[1]}\\ \vdots& \vdots & & \vdots\\ dw_{n^{[1]}1}^{[1]}& dw_{n^{[1]}2}^{[1]} &\cdots & dw_{n^{[1]}n^{[0]}}^{[1]} \end{bmatrix}$

$z^{[1]}=w^{[1]}x+b^{[1]}=\begin{bmatrix} w_{11}^{[1]} &w_{12}^{[1]} &\cdots & w_{1n^{[0]}}^{[1]}\\ w_{21}^{[1]} &w_{22}^{[1]} &\cdots & w_{2n^{[0]}}^{[1]}\\ \vdots& \vdots & & \vdots\\ w_{n^{[1]}1}^{[1]}& w_{n^{[1]}2}^{[1]} &\cdots & w_{n^{[1]}n^{[0]}}^{[1]} \end{bmatrix}\begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_{n^{[0]}} \end{bmatrix}+\begin{bmatrix} b_1\\ b_2\\ \vdots\\ b_{n^{[0]}} \end{bmatrix}\\=\begin{bmatrix} w_{11}^{[1]}x_1+w_{12}^{[1]}x_2+\cdots+w_{1n^{[0]}}^{[1]}x_{n^{[0]}}+b_1^{[1]}\\ w_{21}^{[1]}x_1+w_{22}^{[1]}x_2+\cdots+w_{2n^{[0]}}^{[1]}x_{n^{[0]}}+b_2^{[1]}\\ \vdots\\ w_{n^{[1]}1}^{[1]}x_1+w_{n^{[1]}2}^{[1]}x_2+\cdots+w_{n^{[1]}n^{[0]}}^{[1]}x_{n^{[0]}}+b_{n^{[1]}}^{[1]} \end{bmatrix}=\begin{bmatrix} z_1^{[1]}\\ z_2^{[1]}\\ \vdots\\ z_{n^{[1]}}^{[1]} \end{bmatrix}$

$\therefore dw_{11}^{[1]}=\frac{\partial L(a^{[2]},y)}{\partial w_{11}^{[1]}}=\frac{\partial L(a^{[2]},y)}{\partial z_1^{[1]}}\frac{\partial z_1^{[1]}}{\partial w_{11}^{[1]}}=dz_1^{[1]}x_1$

$dw_{12}^{[1]}=dz_1^{[1]}x_2$

$\cdots$

$dw_{1n^{[0]}}^{[1]}=dz_1^{[1]}x_{n^{[0]}}$

$dw_{21}^{[1]}=dz_2^{[1]}x_1$

$dw_{22}^{[1]}=dz_2^{[1]}x_2$

$\cdots$

$dw_{2n^{[0]}}^{[1]}=dz_2^{[1]}x_{n^{[0]}}$

$\cdots$

$dw_{n^{[1]}1}^{[1]}=dz_{n^{[1]}}^{[1]}x_1$

$dw_{n^{[1]}2}^{[1]}=dz_{n^{[1]}}^{[1]}x_2$

$\cdots$

$dw_{n^{[1]}n^{[0]}}^{[1]}=dz_{n^{[1]}}^{[1]}x_{n^{[0]}}$

$\therefore dw^{[1]}=\begin{bmatrix} x_1dz_1^{[1]}& x_2dz_1^{[1]} & \cdots & x_{n^{[0]}}dz_1^{[1]} \\ x_1dz_2^{[1]}& x_2dz_2^{[1]} & \cdots & x_{n^{[0]}}dz_2^{[1]} \\ \vdots &\vdots & & \vdots\\ x_1dz_{n^{[1]}}^{[1]}&x_2dz_{n^{[1]}}^{[1]} & \cdots &x_{n^{[0]}}dz_{n^{[1]}}^{[1]} \end{bmatrix}\\ =\begin{bmatrix} dz_1^{[1]}\\ dz_2^{[1]}\\ \vdots\\ dz_{n^{[1]}}^{[1]} \end{bmatrix}\begin{bmatrix} x_1 & x_2 & \cdots & x_{n^{[0]}} \end{bmatrix}=dz^{[1]}x^T=dz^{[1]}a^{[0]T}$

m个样本的训练如何向量化？

笔者虽然证明了向量化的过程，但和前面证明大同小异，故给出总结公式：

版本：m个样本Back prop

$dZ^{[2]}=A^{[2]}-Y$

$dw^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}$

$db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)$

$dZ^{[1]}=w^{[2]T}dZ^{[2]}\ast {g^{[1]}}'(Z^{[1]})$

$dw^{[1]}=\frac{1}{m}dZ^{[1]}X^T$

$db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)$

3.11 随机初始化

对于 $b^{[1]},b^{[2]},\cdots$ 如果将其全部初始化为0，是可行的；

但不能将 $w^{[1]},w^{[2]},\cdots$ 全部初始化为0，甚至不可以将其中任何一个初始化为0；

这是因为，举个例子，一旦把 $w^{[1]}$ 初始化为0矩阵，那么第一层的所有隐藏单元都是完全对称的，它们将计算同样的函数，甚至不仅 $a_1^{[1]},a_2^{[1]},a_3^{[1]}\cdots$ 会都一样，而且反向传播时会使 $da_1^{[1]},da_2^{[1]},da_3^{[1]}\cdots$ 都一样，这会使神经网络无论训练多久都会保持这种完全对称性不变，相当不利，多个神经元会干同样的事情，我们想要的是不同的隐藏单元去计算不同的数值函数；