softmax的作用:将多分类的输出值转换为范围在[0, 1]和为1的概率分布
soft 反方词 hard
hardmax
从一组数据中找到最大值
softmax
为每一个分类提供一个概率值,表示每个分类的可能性。所有分类的概念值之和是1.
优点
在x轴上一个很小的变化,可以导致y轴上很大的变化,将输出的数值拉开距离。
在深度学习中通常使用反向传播求解梯度进而使用梯度下降进行参数更新的过程,而指数函数在求导的时候比较方便。
缺点
当输入值非常大的话,计算得到的数值也会变的非常大,数值可能会溢出。
弥补优化:将每一个输出值减去输出值中最大的值。
一般使用交叉熵作为损失函数
标签:输出,梯度,分类,数值,神经网络,轴上,softmax,激活 From: https://blog.51cto.com/shoucuohulu/6437662