1 单输出感知机
在这里我们可以看到,\(W_2,1^1\)其中他的下标第一个2,表示的连着上一层的x2,下标第一个1代表着连着下一侧的x1。然后上标1代表着第一层。E是做了一个loss处理。
\(X_i^1\)这个下标的i代表当前层数节点的编号,然后这个1代表着第1层。\(W_i,j^k\),i表示上一层的节点编号,j表示下一层的节点编号。k代表第几层。因为这个\(O_0^1\)这个是激活函数,所以它可以写成下面公式里面的\(\sigma\)形式。
这是推导过程:
这里面的O什么的上标都省略了。所以它最终的一个梯度是:
代码:
2 多输出感知机
这里面的各个字母的编号和上面的都一样。
上面的公式我们要注意,对\(W_i,j^k\)的偏导数只有\(O^k\)这个对他有影响,因为他们都不连接。
然后推出来这个偏导数就是:
我们发现这个他就是跟它所在的这一层的有关系。就是这个
也是只和它所在连线的k有关。这个也和上面的单层的感知机模型相互一样。