吴恩达深度学习deeplearning.ai学习笔记（一）2.1 2.2 2.3 2.4

标签：吴恩达函数特征向量 ai 样本矩阵损失 deeplearning 定义

2.1逻辑分类/二元分类 logistic regression

经典问题：

假如你有一张图片作为输入，你想输出能识别此图的标签，也就是：如果是猫，输出1；如果不是猫，输出0。这是老吴最喜欢的猫检测器；

我们用y来表示输出的结果标签；

一张图片在计算机中是如何表示的？计算机保存一张图片，要保存三个独立矩阵，分别对应图片中红、绿、蓝三个颜色通道；如果输入图片是64 $\times$ 64像素的，就会有3个64 $\times$ 64的矩阵，分别对应图片中的红、绿、蓝三个通道的像素亮度；

要把这些像素亮度值放进一个特征向量里，就先定义一个特征向量 $x$ ，然后将红色像素矩阵从第一行第一列开始放入，一行放完放下一行，再放绿色矩阵、蓝色矩阵的；

得到的特征向量是一个列向量，很长，它将图片中所有红绿蓝像素强度值都列出来，向量 $x$ 的维度将会是 $64\times64\times3=12288$ ，用 $n_x$ 来表示输入的特征向量 $x$ 的维度。此处 $n_x=12288$ ；

二分分类问题的目标是训练出一个分类器，它以图片的特征向量 $x$ 作为输入，预测输出的结果标签 $y$ 是1还是0，也就是预测图片中是否有猫。

符号规定：

1. 用一对 $(x,y)$ 表示一个单独的样本， $x$ 是 $n_x$ 维的特征向量， $y$ 的值为0或1，即 $x\in \mathbb{R}^{n_x},y\in {\{0,1\}}$ ；

2. 训练集由 $m$ 个训练样本构成， $( x^{(1)},y^{(1)} )$ 表示样本1的输入和输出， $( x^{(2)},y^{(2)} )$ 表示样本2的，……， $( x^{(m)},y^{(m)} )$ 表示最后一个样本 $m$ 的输入和输出；

3. 如果是训练样本的个数，可以写为 $m=m_{train}$ ；如果是测试样本的个数，可以写为 $m=m_{test}$

4. 为了用更紧凑的符号表示训练集，定义一个大写矩阵 $X$ ，由以下构成：

$X=\begin{bmatrix} x^{(1)} & x^{(2)} & \cdots & x^{(m)} \end{bmatrix}$

因为 $x^{(1)} ,x^{(2)} ,x^{(3)} ,\cdots$ 都是列向量，所以才如此横向堆放；

$X$ 有 $m$ 列， $n_x$ 行，也称矩阵高度是 $n_x$ ；

在Python中， $X.shape$ 命令用于输出矩阵X的维度，即 $(n_x,m)$ 。

5. 定义一个大写矩阵 $Y$ ，由以下组成：

$Y=\begin{bmatrix} y^{(1)} & y^{(2)} & \cdots & y^{(m)} \end{bmatrix}$

$Y$ 是一个 $1\times m$ 的矩阵，即 $Y.shape=(1,m)$

2.2 logistic回归

给定已知的输入特征向量 $x$ ，你需要一个算法可以给出一个预测值 $\hat{y}$ ，可以说是对 $y$ 的预测，正式地讲 $\hat{y}$ 是一个概率：当输入特征 $x$ 满足条件时， $y=1$ 的条件概率，即：

$\hat{y}=P{\{y=1|x\}}$

如果 $x$ 是图片，你希望 $\hat{y}$ 能告诉你这是一张猫图的概率；

参数是 $w$ （一个同样为 $n_x$ 维的列向量）和 $b$ （一个实数）；

$\hat{y}$ 和参数 $w,b$ 之间的关系是怎样的呢？

假设 $\hat{y}=w^Tx+b$ ，这样满足 $\hat{y}$ 是一个数，但是并未满足 $\hat{y}$ 是一个在 $[0,1]$ 之间的概率的要求，一般把这种等式叫线性回归；

所以要引入 $\sigma$ 函数：

$\sigma(z)=\frac{1}{1+e^{-z}}$

$\lim_{z \to +\infty }\sigma(z)=1,\lim_{z \to -\infty }\sigma(z)=0$

定义 $\hat{y}=\sigma(w^Tx+b)$ 就确保了 $\hat{y}$ 介于0和1之间；

并且 $\sigma$ 函数的导数恒大于0，所以是单增的；

总之，logistic回归里你要做的就是学习参数 $w,b$ 。

2.3 logistic回归中的损失函数

为了让模型通过学习参数来调整参数，要给一个有 $m$ 个样本的训练集：

$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)}),\cdots,(x^{(m)},y^{(m)}) \}$

希望通过训练集找到合适的参数 $w,b$ ，来得到你对训练集的预测值 $\hat{y}^{(i)},i=1,2,3,\cdots,m$ ，使它能接近于训练集的标签值 $y^{(i)}$ ，即尽可能让 $\hat{y}^{(i)}\approx y^{(i)}$ ；这里右上角带圆括号有数字的上标表示这是第几个样本的数据，后面会有方括号和花括号，要注意区分，剧透一下方括号表示是神经网络第几层的参数，花括号表示mini-batch中第几个子集的数据；

$z^{(i)}=w^Tx^{(i)}+b$

$\hat{y}^{(i)}=\sigma(w^Tx^{(i)}+b)=\sigma(z^{(i)})$

损失函数 Loss function $L(\hat{y},y)$ 应该如何定义？

如果定义为 $L(\hat{y},y)=\frac{1}{2}(\hat{y}-y)^2$ ，当你学习这些参数时，后面讨论优化问题时会发现函数是非凸的，最后会得到很多个局部最优解，在使用梯度下降法时可能找不到全局最优值；当然有人也去研究了非凸函数的优化，建议看看老吴的采访视频，有很多启发；

我们通过定义损失函数来衡量你的预测输出值 $\hat{y}$ 和实际值 $y$ 有多么接近，一般设计成损失函数的值越小，代表接近效果越好，常用的logistic回归的损失函数定义为：

$L(\hat{y},y)=-[yln\hat{y}+(1-y)ln(1-\hat{y})]$

一个粗浅的理解是枚举，如果 $y=1$ ，则 $L(\hat{y},y)=-ln\hat{y}$ ，训练时会往损失函数降低的方向前进，当损失函数尽量小时， $ln\hat{y}$ 会尽量大， $\hat{y}$ 就会尽量大，而它本身是一个值域为[0,1]的概率，就会使 $\hat{y}$ 接近于1，这样就实现了 $\hat{y}\approx y$ ；如果 $y=0$ ，则 $L(\hat{y},y)=-ln(1-\hat{y})$ ，损失函数最小化会使得 $\hat{y}$ 尽量小，也就使得 $\hat{y}$ 接近于0，同样实现了 $\hat{y}\approx y$ ；后面会有一节专门分析损失函数是如何设计出来的；