神经元
激活函数的性质
- 连续并可导(允许少数点上不可导)的非线性函数。
- 可导的激活函数可以直接利用数值优化的方法来学习网络参数。
- 激活函数及其导函数要尽可能的简单
- 有利于提高网络计算效率。
- 激活函数的导函数的值域要在一个合适的区间内
- 不能太大也不能太小,否则会影响训练的效率和稳定性。
- 单调递增
常用的激活函数
复合函数=S型函数+斜坡函数
S型函数
Logistic函数
\[\sigma ( x ) = \frac { 1 } { 1 + e x p ( - x ) } \]\[\left. \begin{array} { l } { tan h ( x ) = \frac { e x p ( x ) - e x p ( - x ) } { e x p ( x ) + e x p ( - x ) } } \\ { tan h ( x ) = 2 \sigma ( 2 x ) - 1 } \end{array} \right. \]性质:
- 饱和函数
- Tanh函数是零中心化的,而logistic函数的输出恒大于0
斜坡函数
\[Relu(x)=max(0,x) \]- 计算上更加高效
- 生物学合理性
- 单侧抑制、宽兴奋边界
- 在一定程度上缓解梯度消失问题
死亡ReLU问题(Dying ReLU Problem)
\[\begin{array}{l} LeakyReLU(x)=\left\{\begin{array}{ll} x& \text { if } x>0 \\ \gamma x & \text { if } x \leq 0 \end{array}\right.\\ =\max (0, x)+\gamma \min (0, x) \end{array} \]近似的零中心化的非线性函数
\[\begin{aligned} \mathrm{ELU}(x) &=\left\{\begin{array}{ll} x & \text { if } x>0 \\ \gamma(\exp (x)-1) & \text { if } x \leq 0 \end{array}\right.\\ &=\max (0, x)+\min (0, \gamma(\exp (x)-1)) \end{aligned} \]Rectifier函数的平滑版本
\[\operatorname{Softplus}(x)=\log (1+\exp (x)) \]复合函数
Swish函数:一种自门控(Self-Gated)激活函数
\[swish(x)=x\sigma(\beta x) \]高斯误差线性单元(Gaussian Error Linear Unit,GELU)
\[GELU(x)=xP(X\le x) \]神经网络
人工神经网络主要由大量的神经元以及它们之间的有向连接构成。因此考虑三方面:
- 神经元的激活规则
- 主要是指神经元输入到输出之间的映射关系,一般为非线性函数。
- 网络的拓扑结构
- 不同神经元之间的连接关系。
- 学习算法
- 通过训练数据来学习神经网络的参数。
网络结构
人工神经网络由神经元模型构成,这种由许多神经元组成的信息处理网络具有并行分布结构。
神经网络是一种主要的连接主义模型
20世纪80年代后期,最流行的一种连接主义模型是分布式并行处理(Parallel Distributed Processing,PDP)网络,其有3个主要特性:
- 信息表示是分布式的(非局部的);
- 记忆和知识是存储在单元之间的连接上;
- 通过逐渐改变单元之间的连接强度来学习新的知识。
引入误差反向传播来改进其学习能力之后,神经网络也越来越多地应用在各种机器学习任务上。
前馈神经网络
全连接神经网络、多层感知器
- 各神经元分别属于不同的层,层内无连接。
- 相邻两层之间的神经元全部两两连接。
- 整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示。
给定一个前馈神经网络,用下面的记号来描述这样网络:
信息传递过程
前馈神经网络通过下面公式进行信息传播。
\[\begin{aligned} z^{(l)} &=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)} \\ \boldsymbol{a}^{(l)} &=f_{l}\left(\boldsymbol{z}^{(l)}\right) \end{aligned} \]\[\boldsymbol{a}^{(l)}=f_{l}\left(\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}\right) \]前馈计算:
应用到机器学习
神经网络可以作为一个“万能”函数来使用,可以用来进行复杂的特征转换,或逼近一个复杂的条件分布。
\[\hat{y}=g(\phi(\boldsymbol{x}) ; \theta) \]深层前馈神经网络
参数学习
对于多分类问题
如果使用Softmax回归分类器,相当于网络最后一层设置C个神经元,其输出经过Softmax函数进行归一化后可以作为每个类的条件概率。
\[\hat{\boldsymbol{y}}=\operatorname{softmax}\left(z^{(L)}\right) \]采用交叉熵损失函数,对于样本(X,y),其损失函数为
\[\mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})=-\boldsymbol{y}^{\top} \log \hat{\boldsymbol{y}} \]给定训练集为 $D=\left{\left(\boldsymbol{x}^{(n)}, y{(n)}\right)\right}_{n=1}{N} $, 将每个样本 $ \boldsymbol{x}^{(n)} $ 输入 给前馈神经网络, 得到网络输出为$ \hat{y}^{(n)} $, 其在数据集 \(\mathrm{D}\) 上的 结构化风险函数为:
\[\mathcal{R}(\boldsymbol{W}, \boldsymbol{b})=\frac{1}{N} \sum_{n=1}^{N} \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)+\frac{1}{2} \lambda\|\boldsymbol{W}\|_{F}^{2} \]Frobenius范数
\[\|\boldsymbol{W}\|_{F}^{2}=\sum_{l=1}^{L} \sum_{i=1}^{M_{l}} \sum_{j=1}^{M_{l-1}}\left(w_{i j}^{(l)}\right)^{2} \]梯度下降
计算
\[\frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{W}^{(t)}} \]\(和\)
\[\frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{b}^{(t)}} \]如何计算梯度?
神经网络为一个复杂的复合函数
链式法则?
\[y=f^{5}\left(f^{4}\left(f^{3}\left(f^{2}\left(f^{1}(x)\right)\right)\right)\right) \rightarrow \frac{\partial y}{\partial x}=\frac{\partial f^{1}}{\partial \mathrm{x}} \frac{\partial f^{2}}{\partial f^{1}} \frac{\partial f^{3}}{\partial f^{2}} \frac{\partial f^{4}}{\partial f^{3}} \frac{\partial f^{5}}{\partial f^{4}} \]反向传播算法
根据前馈网络的特点而设计的高效方法
一个更加通用的计算方法
自动微分(Automatic Differentiation,AD)
反向传播算法
矩阵微积分
-
矩阵微积分(Matrix Calculus)是多元微积分的一种表达方式,即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。
-
分母布局
- 标量关于向量的偏导数
- 向量关于向量的偏导数
使用反向传播算法的随机梯度下降训练过程
自动梯度计算
计算图与自动微分
自动微分是利用链式法则来自动计算一个复合函数的梯度。
\[f(x ; w, b)=\frac{1}{\exp (-(w x+b))+1} \]计算图
自动微分
反向模式和反向传播的计算梯度的方式相同,通常使用反向模式
如果函数和参数之间有多条路径,可以将这多条路径上的导数再进行相加,得到最终的梯度。
反向传播算法(自动微分的反向模式)
前馈神经网络的训练过程可以分为以下三步
- 前向计算每一层的状态和激活值,直到最后一层
- 反向计算每一层的参数的偏导数
- 更新参数
静态计算图和动态计算图
- 静态计算图是在编译时构建计算图,计算图构建好之后在程序运行时不能改变。
Theano和Tensorflow - 动态计算图是在程序运行时动态构建。
DyNet,Chainer和PyTorch
两种构建方式各有优缺点
- 静态计算图在构建时可以进行优化,并行能力强,但灵活性比较差低。
- 动态计算图则不容易优化,当不同输入的网络结构不一致时,难以并行计算,但是灵活性比较高。
Keras
深度学习的三个步骤
- 定义网络
- 损失函数
- 优化
优化问题
非凸优化问题
\[y = \sigma( w _ { 2 } \sigma ( w _ { 1 } x ) ) \]梯度消失问题(Vanishing Gradient Problem)
难点
- 非凸优化问题:即存在局部最优而非全局最优解,影响迭代
- 梯度消失问题,下层参数比较难调
- 参数过多,影响训练
- 参数解释起来比较困难
需求
- 计算资源要大
- 数据要多
- 算法效率要好:即收敛快
课程视频传送门:https://www.bilibili.com/video/BV1P3411u7c1?p=30
原创作者:孤飞-博客园
原文链接:https://www.cnblogs.com/ranxi169/p/16867528.html