标签：le 复习模式识别判别函数更新感知机 eta text

1. 线性判别函数

1.1 定义

在 \(d\) 维特征空间中，有 线性判别函数：

\[G(x) = w^{\text{T}} x + b \]

其中，\(w = [w_1, w_2, \ldots, w_d]^T\) 称为 权值向量，\(b\) 称为偏置，都是需要学习的参数。\(G(x) = 0\) 为 决策边界方程。

PS：只能解决二分类问题。

1.2 几何意义

\(w\) 为超平面 \(w^{\text{T}} x + b = 0\) 的法向量，\(r\) 为实例 \(x\) 到决策边界的距离。

\(x\) 在决策边界的正侧：\(r = \frac{G(x)}{||w||}\)
\(x\) 在决策边界的负测：\(r = - \frac{G(x)}{||w||}\)

\(w\) 仅代表决策边界的法向量方向，其长度不会影响决策边界在特征空间的位置，因此可以视作 \(||w|| = 1\)。故 判别函数的绝对值 即 实例到决策边界的距离。

1.3 广义线性化

对于一个 线性不可分 问题，可以通过一个非线性变换，映射到高维空间，将识别问题变得线性可分：

\[\begin{split} 低维特征空间 & \rightarrow 高维特征空间 \\\\ 线性不可分 & \rightarrow 线性可分 \end{split} \]

2. 感知机

2.1 感知机

感知机的判别函数：

\[G(x) = w^{\text{T}}x + b \]

也就是一个线性判别函数。为了方便表示，将偏置 \(b\) 加入到 \(w\) 中，使得 \(w^{'} = [w_1, w_2, \ldots, w_d, b]^{\text{T}}\)，\(x^{'} = [x_1, x_2, \ldots, x_d, 1]^{\text{T}}\)，因此判别函数变为：

\[G(x^{'}) = w^{'\text{T}} x^{'} \]

PS: 后续的表示也都采用 \(G(x) = w^{\text{T}}x\) 的形式。

2.2 感知机训练

给定一个线性可分的二分类训练集：

\[\{ (x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N) \} \]

其中 \(x_i \in \mathbb{R}^d\)，\(y_i \in \{ -1, +1 \}\) ，分别表示实例和类标。\((x_i y_i)\) 称为一个样本。（此处的 \(x_i\) 为已经扩展的特征向量）

感知机的训练目标即：求得一个权值向量 \(w\)，使得其对所有训练样本正确分类：

\[\begin{cases} w^{\text{T}}x > 0, & y_i = +1 \\\\ w^{\text{T}}x < 0, & y_i = -1 \end{cases} \]

等价于：求得一个权值向量 \(w\)，对于所有训练样本有：

\[y_i w^{\text{T}}x > 0, \ \forall i = 1, 2, \ldots, N \]

2.3 感知机准则函数、学习算法

定义：所有误分类的样本到当前决策超平面的距离之和。

记 \(M\) 为被决策超平面 \(G(x) = w^{\text{T}}x = 0\) 误分类的样本集合。对于 \(\forall (x_i, y_i) \in M\)，有 \(y_iw^{\text{T}}x \le 0\)。

因此，\(\forall (x_i, y_i) \in M\)，其到决策超平面的距离为：

\[\frac{|G(x)|}{||w_{1:d-1}||} = \frac{|w^{\text{T}}x_i|}{||w_{1:d-1}||} = \frac{-y_i w^{\text{T}}x_i}{||w_{1:d-1}||} \]

视 \(||w_{1:d-1}|| = 1\)，则感知机的准则函数为：

\[J(w) = \sum_{x_i \in M} -y_i w^{\text{T}}x_i \]

我们需要最小化这个函数。即求解最优化问题：

\[\min_{w} J(w) = \min_{w} \sum_{x_i \in M} -y_i w^{\text{T}}x_i \]

对于此无约束优化问题，我们采用梯度下降法解决。准则函数对 \(w\) 的梯度为：

\[\nabla_w J = \sum_{x_i \in M} -y_i x_i \]

因此，权值向量更新公式为：

\[w \leftarrow w - \eta \nabla_w J \]

其中 \(\eta\) 为学习率，\(\nabla_w J = \sum_{x_i \in M} -y_i x_i\)。

2.4 MGD、SGD训练感知机的流程

\(\text{MGD}\)（批量梯度下降算法）
1. 随机选取超平面，权值向量初始为 \(w\)；
2. 令集合 \(M = \emptyset\)。对训练集每个样本进行处理，并将 \(y_i w^{\text{T}}x_i \le 0\) 的样本加入到 \(M\) 中；
3. 如果集合 \(M \not = \emptyset\)，进行更新：
  
  \[w \leftarrow w - \eta (\sum_{x_i \in M} -y_i x_i) \]
  其中 \(\eta\) 为学习率。更新完后返回步骤 \(2\)。
  
  如果集合 \(M = \emptyset\)，则终止程序。
终止程序后得到的 \(w\) 满足：

\[\forall (x_i, y_i) \in M，有 \ y_i w^{\text{T}}x \le 0 \]
训练得到感知机模型：\(f(x) = \text{sign}(w^{\text{T}}x)\)

\(\text{SGD}\)（随机梯度下降算法）

PS：每次处理一个样本，如果分类错误，就用这个样本来修正权值向量 \(w\)。
1. 随机选取超平面，权值向量初始为 \(w\) 或者 \(w = 0\)；
2. 依次处理训练集的每个样本：
  
  如果 \(y_i w^{\text{T}}x_i \le 0\)，则进行更新：
  
  \[w \leftarrow w - \eta (- y_i x_i) \]
  如果 \(y_i w^{\text{T}}x_i > 0\)，则保持 \(w\) 不变，返回步骤 \(2\)。
  
  直到所有样本都被正确分类。

2.5 感知机实例（作业）

数据规范化得到：

\[x_1 = (3, 3, 1), y_1 = +1 \\\\ x_2 = (5, 2, 1), y_2 = +1 \\\\ x_3 = (1, 1, 1), y_3 = -1 \]
利用 \(\text{SGD}\) 进行求解。初始化 \(w = 0\), \(\eta = 1\):

对于 \(x_1\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_1 x_1 = (3, 3, 1)\)；

对于 \(x_2\)，无需更新；

对于 \(x_3\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_3 x_3 = (2, 2, 0)\)；

对于 \(x_1\)，无需更新；对于 \(x_2\)，无需更新；

对于 \(x_3\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_3 x_3 = (1, 1, -1)\)；

对于 \(x_1\)，无需更新；对于 \(x_2\)，无需更新；

对于 \(x_3\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_3 x_3 = (0, 0, -2)\)；

对于 \(x_1\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_1 x_1 = (3, 3, -1)\)；

对于 \(x_2\)，无需修正；

对于 \(x_3\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_3 x_3 = (2, 2, -2)\)；

对于 \(x_1\)，无需更新；对于 \(x_2\)，无需更新；

对于 \(x_3\)，由于 \(y_1 w^{\text{T}}x_1 \le 0\)，需要更新：\(w = w + \eta y_3 x_3 = (1, 1, -3)\)；

对于 \(x_1\)，无需更新；对于 \(x_2\)，无需更新；对于 \(x_3\)，无需更新。算法终止。
求得模型为： \(f(x) = \text{sign}(x^{(1)} + x^{(2)} - 3)\)。

3. 多分类问题的线性分类

3.1 一对多

对于训练集的每一类实例，训练一个线性判别函数。将属于该类和不属于该类的实例分开。

原则：对实例 \(x\) 进行分类时，当且仅当所有判别函数无冲突才能做出决策。

3.2 一对一

对于训练集中任意两个类的实例，训练一个线性判别函数。

原则：多数投票。如果绝大部分分类器认为将 \(x\) 分为 \(w_i\) 类，则将 \(x\) 分为 \(w_i\) 类。

3.3 最大值

对于训练集中的每个类训练一个判别函数。

原则：将一个实例分到 取值最大的判别函数对应的类 中。

3.4 总结

对于一个 \(k\) 分类问题。

一对多：需要 \(k\) 个判别函数。不可识别区域较多。
一对一：需要 \(C_k^2\) 个判别函数。不可识别区域较少，但随着 \(k\) 增大，判别函数数量会大大增加，不适用于 \(k\) 较大的情况。
最大值：需要 \(k\) 个判别函数。无不可识别区域，但训练判别函数过程复杂。

标签：le,复习,模式识别,判别函数,更新,感知机,eta,text
From： https://www.cnblogs.com/MarisaMagic/p/18257712

[模式识别复习笔记] 第3章线性判别函数

1. 线性判别函数

1.1 定义

1.2 几何意义

1.3 广义线性化

2. 感知机

2.1 感知机

2.2 感知机训练

2.3 感知机准则函数、学习算法

2.4 MGD、SGD训练感知机的流程

2.5 感知机实例（作业）

3. 多分类问题的线性分类

3.1 一对多

3.2 一对一

3.3 最大值

3.4 总结

相关文章

赞助商

阅读排行

[模式识别复习笔记] 第3章 线性判别函数

1. 线性判别函数

1.1 定义

1.2 几何意义

1.3 广义线性化

2. 感知机

2.1 感知机

2.2 感知机训练

2.3 感知机准则函数、学习算法

2.4 MGD、SGD训练感知机的流程

2.5 感知机实例（作业）

3. 多分类问题的线性分类

3.1 一对多

3.2 一对一

3.3 最大值

3.4 总结

相关文章

赞助商

阅读排行

[模式识别复习笔记] 第3章线性判别函数