今天学的有些小兴奋,终于解锁了很多熟悉但不明就里的术语。
天呢,原来ReLU是“修正线性单元”的意思!Rectified Linear Unit!
但是呢,也有不大对付的地方:好几个地方前言不搭后语。
容我一一道来。
今天就顺序边读边记:
线性模型(linear model)== 把模型输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型。
1.2.1 分段线性曲线
Hard Sigmoid (Note:文中这里是第一次提这个英文词组很突兀,就那么生硬的摆在那里了)函数的特性是当输入的值,当 x 轴的值小于某一个阈值(某个定值)的时候,大于另外一个定值阈值的时候,中间有一个斜坡。所以它是先水平的,再斜坡,再水平的。
分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆不同线性函数。如果分段线性曲线越复杂,转折的点越多,所需的不同线性函数就越多。
Sigmoid 函数就是 S 型的函数。因为它长得是有点像 S 型,所以叫它 Sigmoid 函数
其横轴输入是 x1,输出是 y,c 为常数。
如果 x1 的值,趋近于无穷大的时候,e−(b+wx1) 这一项就会消失,当 x1 非常大的时候,这一条就会收敛在高度为 c 的地方。如果 x1 负的非常大的时候,分母的地方就会非常大,y的值就会趋近于 0
wij 代表在第 i 个 Sigmoid 里面,乘给第 j 个特征的权重,w 的第一个下标代表是现在在考虑的是第一个 Sigmoid 函数
我们可以用矩阵跟向量相乘的方法,写一个比较简洁的写法。
Sigmoid 的数量是一个超参数。
所有的未知的参数,一律统称 θ。损失函数就变成 L(θ)。
要找到 θ 让损失越小越好,可以让损失最小的一组 θ 称为 θ∗
把 N 笔数据随机分成一个一个的批量(batch),一组一组的
把所有的批量都看过一次,称为一个回合(epoch),每一次更新参数叫做一次更新。
一个回合的训练,更新了几次参数?取决于它的批量大小有多大。
1.2.2 模型变形
HardSigmoid 可以看作是两个修正线性单元(Rectified Linear Unit,ReLU)的加总,ReLU 的图像有一个水平的线,走到某个地方有一个转折的点,变成一个斜坡,其对应的公式为
(note:☀️老天爷,看到这里激动的我嘎嘎的,已经2年了接触这个概念。一直get不到这么缩写的点儿。今儿终于 得偿所愿了!!! 给作者送花
标签:称为,函数,Sigmoid,AI,李宏毅,Datawhale,一个,ReLU,线性 From: https://blog.csdn.net/V6T1Z4/article/details/141676881