全连接神经网络的含义
全连接神经网络级联多个变换来实现输入到输出的映射。(非线性操作是不可以被去掉,原因在于若网络中缺少了激活函数,全连接神经网络将变成一个线性分类器。)
常用的激活函数
sigmoid、relu、tanh、leaky relu。图像如下:
损失函数
softmax函数:
softmax函数将多分类的输出值转化为0到1的概率分布。
交叉熵损失:
激活函数
梯度消失:现象是隐藏层权值更新缓慢或者停滞。
梯度爆炸:由于链式法则的乘法特性导致的,断崖处梯度乘以学习率后是一个非常大的值,导致算法不收敛。解决方案方法是通过限制前进的步长的某个值,可以避免爆炸。(梯度裁剪)
梯度算法改进
动量法:改进梯度下降算法存在的问题,加速通往谷底。(利用累加历史梯度信息更新梯度)
自适应梯度法:通过减小震荡方向步长,增大平坦方向步长来减小震荡,加速谷底方向;
区分震荡方向与平坦方向:梯度幅度的平方较大的方向是震荡方向;梯度幅度的平方较小的方向是平坦方向。
Xavier初始化
目标:使网络各层的激活值和局部梯度的方差在传播过程中尽量保持一致,即寻找w的分布使得输出y与输入z的方差一致。
好的初始化方法可以防止前向传播过程中的信息消失,也可以解决反向传递过程中的梯度消失。
激活函数选择双曲正切或者Sigmoid时,建议使用Xaizer初始化方法; 激活函数选择ReLU或Leakly ReLU时,推荐使用He初始化方法。
批归一化
如果每一层的每个神经元进行批归一化,就能解决前向传递过程中的信号消失问题。
学习过程中的过拟合
优化---是指调节模型以在训练数据上得到最佳性能。
泛化---是指训练好的模型在前所未有的数据上的性能的好坏。
应对过拟合:
最优方案:获取更多的训练数据 次优方案:正则化
正则化的3种方法:
1)调节模型大小 2)约束模型权重,权重正则化 3)随机失活(让隐层的神经元以一定的概率不被激活)
超参数优化方法
a)网格搜索法:每个超参数分别取几个值,组合这些超参数,在验证集上评估这些模型的性能,选择性能最优的模型采用那组作为最终的超参数的值。
b)随机搜索法:参数空间内随机取点,选择最优的模型采用的参数作为最终的超参数的值。
超参数搜索策略:
粗搜索:在较大范围采样超参数,根据验证集正确率缩小超参数范围。
精搜索:在缩小的范围内采样,选择进度最高的那组参数。
标签:函数,梯度,神经网络,参数,方向,激活,连接 From: https://www.cnblogs.com/charlton-99ing/p/16633489.html