一、基本原理
-
线性可分情况
- 假设我们有一个二分类问题,数据点在特征空间中是线性可分的。SVM的目标是找到一个超平面,将不同类别的数据点完全分开。这个超平面可以用方程\(w^Tx + b = 0\)来表示,其中\(w\)是权重向量,\(x\)是特征向量,\(b\)是偏置项。
- 对于线性可分的数据,存在无数个超平面可以将两类数据分开。SVM要找的是能够使两类数据的间隔(margin)最大的那个超平面。间隔是指超平面到离它最近的样本点的距离之和,这些最近的样本点被称为支持向量。
- 例如,在二维平面中,数据点是平面上的点,超平面是一条直线。如果有两类点(比如用圆形和方形表示),SVM会找到一条直线,使得圆形点和方形点被尽可能宽地分开,并且这条直线是由离它最近的几个点(支持向量)决定的。
-
线性不可分情况
- 当数据不是线性可分的时候,SVM引入了核技巧(Kernel Trick)。核技巧的基本思想是将原始数据通过一个非线性映射函数\(\varphi(x)\)映射到一个高维特征空间,使得在这个高维空间中数据变得线性可分。
- 常用的核函数有多项式核函数\(K(x_i,x_j)=(x_i^Tx_j + c)^d\)(其中\(c\)是常数,\(d\)是多项式的次数)、高斯径向基函数(RBF)核函数\(K(x_i,x_j)=\exp(-\gamma||x_i - x_j||^2)\)(其中\(\gamma\)是一个参数)等。例如,对于一些在二维平面中呈圆形分布的两类数据,在原始二维空间中无法用直线分开,但通过核函数将其映射到三维空间后,可能就可以用一个平面分开。
-
目标函数与优化问题
- SVM的目标是最小化\(\frac{1}{2}||w||^2\),同时满足约束条件\(y_i(w^Tx_i + b)\geq1\),其中\(y_i\)是样本\(x_i\)的类别标签(通常\(y_i\in\{- 1,1\}\))。这个目标函数的意义是在保证分类正确(由约束条件保证)的情况下,使超平面的间隔最大(因为间隔与\(||w||\)成反比)。
- 这是一个二次规划(Quadratic Programming,QP)问题,可以通过拉格朗日乘子法将其转化为对偶问题进行求解。对偶问题是求\(\max_{\alpha}\sum_{i = 1}^{n}\alpha_i-\frac{1}{2}\sum_{i = 1}^{n}\sum_{j = 1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j\),其中\(\alpha_i\)是拉格朗日乘子,并且满足\(\sum_{i = 1}^{n}\alpha_iy_i = 0\)和\(\alpha_i\geq0\)。通过求解对偶问题得到\(\alpha\)的值,进而可以求出\(w\)和\(b\)的值。
二、模型参数
-
惩罚参数C
- \(C\)是一个权衡模型复杂度和训练误差的参数。当\(C\)很大时,模型会尽量减少训练误差,可能导致过拟合;当\(C\)很小时,模型会更倾向于有一个较大的间隔,可能会忽略一些训练数据点的错误分类,导致欠拟合。
- 例如,在一个包含噪声数据的分类任务中,如果\(C\)设置得过大,模型可能会过度拟合噪声,而如果\(C\)设置得过小,模型可能会对正常数据的分类也不准确。
-
核函数参数(以RBF核为例的\(\gamma\))
- \(\gamma\)决定了高斯核函数的形状。\(\gamma\)越大,核函数的作用范围越小,模型越复杂,容易过拟合;\(\gamma\)越小,核函数的作用范围越大,模型越简单,可能会欠拟合。
- 比如,在图像分类任务中,使用SVM - RBF核时,如果\(\gamma\)设置得很大,模型可能会对图像中的细节过度敏感,而如果\(\gamma\)设置得很小,模型可能无法很好地捕捉图像中的重要特征。
三、模型评估
- 准确率(Accuracy)
- 计算正确分类的样本数占总样本数的比例。这是最直观的评估指标,但在数据不平衡的情况下可能会产生误导。例如,在一个数据集里,90%是正类,10%是负类,即使模型总是预测为正类,准确率也能达到90%。
- 精确率(Precision)和召回率(Recall)
- 精确率是指模型预测为正类的样本中真正为正类的比例;召回率是指真正为正类的样本中被模型预测为正类的比例。在信息检索、医学诊断等领域很重要,例如在疾病诊断中,精确率表示被诊断为患病的人中真正患病的比例,召回率表示真正患病的人被诊断出来的比例。
- F1 - Score
- F1 - Score是精确率和召回率的调和平均数,\(F1 = 2\times\frac{Precision\times Recall}{Precision + Recall}\),它综合考虑了精确率和召回率,在比较不同模型或调整模型参数时是一个很有用的指标。
四、应用场景
- 文本分类
- SVM在文本分类任务中表现出色,如垃圾邮件过滤。将邮件文本转换为词向量等特征表示后,使用SVM可以有效地将垃圾邮件和正常邮件分开。通过对大量的邮件文本进行训练,模型可以学习到垃圾邮件和正常邮件在词汇使用、格式等方面的差异。
- 图像识别(特别是小样本情况)
- 在一些小样本的图像分类任务中,SVM可以利用核函数挖掘数据的潜在结构。例如,对手写数字识别,将图像的像素特征提取后,SVM可以通过合适的核函数来区分不同的数字。
- 生物信息学
- 在基因分类、蛋白质结构分类等任务中,SVM可以根据基因序列、蛋白质结构等特征进行分类。例如,根据基因序列预测基因是否与某种疾病相关,或者对不同类型的蛋白质结构进行分类。