1. 模型理念
在Logistic回归模型中,决策边界一旦能够将数据完全正确的分类,优化过程(梯段下降过程)就会立刻停止,因为在这个时候损失函数已经取得了最小值。而SVM则是求得所有正确解中的最优解。
支持向量积:以决策边界为中心,向两个方向做平行面直到两个平行面都恰好与两个类别的支持向量相交。两个平行面之间的距离最大的对应的决策面即 最佳决策面。
2.模型构建
2.1 目标函数
推理过程见笔记。 注意,考虑到异常点:硬间隔 =》软间隔,对应有惩罚因子C,C越大表示对异常点的惩罚越大,分类越精确但是泛化性不好,C越小表示对异常点越容忍,分类不精确但是泛化性比较好。
2.2 优化方法
原约束极限问题 =》 对偶问题 =》KTT条件,SMO算法求解。
2.3 SVM:线性可分到非线性可分
对于线性不可分问题,可以利用升维的思想,如同多项式扩展,本来线性不可分的问题转换为线性可分问题。理论上讲,如果将数据特征升高到无穷维,任何问题都将变得线性可分。
核函数:在低纬空间的计算量可以实现 目标函数中两个无穷维向量点积的运算结果。
线性核、多项式核、高斯核、tanh核,不同的核函数有不同的超参数。【多个最佳超参数组合的训练可以用网格搜索实现】
3. 引发过拟合和欠拟合的因素以及改进措施
3.1 欠拟合
不论是SVM分类还是回归,对于惩罚因子C,当C趋近于无穷大时,软间隔将退化成硬间隔,C的大小决定了间隔的软硬程度。当惩罚因子过小,模型无法很好的学习到支持向量的特征,间隔过软出现欠拟合,应 调大C。
3.2 过拟合
惩罚因子C比较大时,模型对异常点的容忍比较小,模型会更贴合数据集,更容易受到异常点的影响,间隔过硬出现过拟合。应 调小C。
4. 使用场景以及模型特性
4.1 SVM特性
对最终SVM影响较大的其实是数据集中的支持向量,也既:分类问题中的边界点。
SVM对噪音比较敏感,因为噪音点经常出现在分类边界位置与支持向量混在一起,随着数据集样本数量的增加,噪音出现的可能性变大,因此,SVM更适合小批量数据集。
4.2 SVM解决回归问题
目标函数仍然是:最宽街道中间的决策边界,因为回归问题实际样本标签会在理想值上下浮动,最宽街道的最中间的决策边界最可能拟合回归问题的理想值。
约束条件:由分类的 ≥ 1,变成了 ≤ exp,exp是比较小的值,表示真实标签值不能偏离理想值太远,相当于分类问题中的 松弛因子ξ 。
5. 完整可运行的代码
标签:1.5,SVM,间隔,分类,拟合,线性,向量 From: https://www.cnblogs.com/zhangzhenw/p/18112491