首页 > 其他分享 >机器学习2_支持向量机_线性可分——MOOC

机器学习2_支持向量机_线性可分——MOOC

时间:2024-11-05 21:20:47浏览次数:6  
标签:MOOC 支持 20% 超平面 线性 训练样本 向量

定义

线性可分(Linear Separable)

二维 

三维

特征空间维度 \geqslant 四维 时,二维的情况下分割圆圈和叉的直线。

线性不可分(Nonlinear Separable)

不存在一条直线

二维 

三维

特征空间维度 \geqslant 四维 时,三维的情况下,分割圆圈和叉的平面将会变成超平面(Hyperplane)。由于人眼对空间的感知仅仅局限于三维,所以说我们无法直观的画出一个图。

数学化定义

在四维以及四维以上的情况说明线性和线性不可分的情况,必须借助数学对线性可分和线性不可分给出一个精确的定义。

假设:\omega _1'=-\omega _1,\omega _2'=-\omega _2,b'=b,则

用数学严格定义训练样本以及他们的标签

假设:我们有N个训练样本和他们的标签

 \left \{ \left ( X_1,y_1 \right ),\left ( X_2,y_2 \right ),\dots,\left ( X_n,y_n \right ) \right \}

其中 X_i=\left [ x_{i1},x_{i2} \right ]^T  , y_i=\left \{ +1,-1 \right \}

X_i 是向量,y_i 是X_i 的标签。

我们规定X_i 属于 C_1 ,则 y_i= +1X_i 属于 C_2 ,则 y_i= -1

线性可分的严格定义:一个训练样本集 \left \{ \left ( X_1,y_1 \right ),\left ( X_2,y_2 \right ),\dots,\left ( X_n,y_n \right ) \right \},在 i=1\sim N线性可分,是指存在 \left ( \omega _1,\omega _2,b \right ),使得对 i=1\sim N,有:

(1)若  y_i= +1,则  \omega _1X_{i1}+\omega _2X_{i2}+b > 0

(2)若  y_i= -1,则  \omega _1X_{i1}+\omega _2X_{i2}+b < 0

假设:

X_i=\begin{bmatrix} x_{i1}\\ x_{i2} \end{bmatrix}^T   \omega =\begin{bmatrix} \omega _{1}\\ \omega _{2} \end{bmatrix}^T

(1)若  y_i= +1,则  \omega ^TX_{i}+b > 0

(2)若  y_i= -1,则  \omega ^TX_{i}+b < 0

线性可分定义的最简化形式

如果  y_i= +1 或 -1,则上面两个公式可以合为一个。

一个训练样本集 \left \{ \left ( X_i,y_i \right ) \right \},在  i=1\sim N线性可分,是指存在 \left ( \omega ,b \right ) ,似的对 i=1\sim N,有:

y_i\left ( \omega ^TX_i+b \right )> 0


问题描述

支持向量机算法

1、解决线性可分问题

2、再将线性可分问题中获得的结论推广到线性不可分情况

如何解决线性可分问题?

二维特征空间中的二分类问题

如图,哪条线更好?

2号线更能抵御训练样本位置的误差。

基于最优化的理论,将寻找2号线的过程变成了一个最优化的问题。

Veapick给出的回答:

假设对于任意一条分开圆圈和叉这两类的直线,把这条直线朝一侧平行的移动,直到它插到或几个训练样本位置。同时,也把这条直线朝另外一侧平行的移动,直到它插到或几个训练样本位置。

我们定义这两条虚线,它也都是平行的。

我们定义这两条平行线插到的训练样本叫做这个数据集的支持向量(Support Vectors),把这两条平行线之间的距离叫做间隔(Margin Vipic)。

断言我们想要求的2号线是使间隔margin最大的一条线。需要比较1、2、3号3条件的间隔margin。

显然2号线的margin间隔比1号线、3号线都要大。支持向量机要找的是使间隔margin最大的那一条直线。

为了让找到的直线唯一,还需要定义这条线应该再多上下两条平行线,就是图中的两条虚线所示,这条线在上下两个平行线的正中间,也就是这条线到左右两边所有的支持向量距离应该相等

总结

在线性可分的条件下,支持向量机寻找的最优的分类直线应该满足下面三个条件:

  1. 该直线分开了两类;
  2. 该直线最大化间隔(margin)
  3. 该直线处于间隔的中间,到所有支持向量距离相等。

上述的结果,都是基于二维特征空间的结果。在高维的特征空间中,直线将变成超平面。但以上的结论却是一致的。


优化问题

线性可分定义

一个训练样本集 \left \{ \left ( X_i,y_i \right ) \right \},在  i=1\sim N线性可分,是指存在 \left ( \omega ,b \right ) 使:

(1)若  y_i= +1,则  \omega ^TX_{i}+b > 0

(2)若  y_i= -1,则  \omega ^TX_{i}+b < 0

假定训练样本集是线性可分的

支持向量机需要寻找的是最大化 间隔(Margin)的超平面。

可以写出如下形式:

1、最小化(Minimize):\frac{1}{2}\left \| \omega \right \|^2

\left \| \omega \right \|^2

\omega =\begin{bmatrix} \omega_1\\ \omega_2\\ ...\\ \omega_m\\ \end{bmatrix}

\left \| \omega \right \|^2=\omega_1^2+\omega_2^2+...+\omega_m^2=\displaystyle\sum_{i=1}^{m}\omega_i^2

2、限制条件:y_i\left ( \omega ^Tx_i+b \right )\geq 1,(i=1\sim N)

已知:训练样本集 \left \{ \left ( X_i,y_i \right ) \right \},  i=1\sim N

待求: \left ( \omega ,b \right )

回顾【问题描述】

支持向量机需要找一个超平面,使它的间隔最大;

离两边所有支持向量的距离相等

事实1:

\omega ^TX_{i}+b = 0

\left (\alpha \omega ^T\right ) x+\left (ab \right ) = 0  是同一个超平面。\left (a\neq 0 \right )

事实2:

一个点 X_0 到超平面  \omega ^TX_{i}+b = 0 的距离 d=\frac{\left | \omega ^Tx_0+b \right |}{\left \| \omega \right \|}

点到超平面的距离公式

一个点 \left ( x_0,y_0 \right ) 到超平面 \omega _1x_0+\omega_2y_0+b=0 的距离 d=\frac{\left | \omega _1x_0+\omega _2y_0+b \right |}{\sqrt{\omega _1^2+\omega _2^2}}

支持向量机优化问题推导中最难理解的部分

用 a 去缩放 \omega b 

\left ( \omega,b \right )\rightarrow \left ( a \omega,a b \right )

最终使在支持向量 x_0 上有  \left | \omega ^Tx_0+b \right |= 1 ,而在非支持向量上  \left | \omega ^Tx_0+b \right |> 1

\because 根据【事实1】 \left ( \omega,b \right )  表示的超平面和  \left ( a \omega,a b \right )  表示的超平面是同一个平面。

\therefore  参数 a 去缩放 \left ( \omega,b \right ) 

\because 根据【事实2】,支持向量 X_0 到超平面的距离将会变为:d=\frac{\left | \omega ^Tx_0+b \right |}{\left \| \omega \right \|}=\frac{1}{\left \| \omega \right \|}

\therefore  最大化支持向量机到超平面的距离 等价于最小化 \left \| \omega \right \|

优化问题定为:

最小化: \frac{1}{2}\left \| \omega \right \|^2

最小化: \left \| \omega \right \|

限制条件:

支持向量到超平面的距离为: \frac{1}{2}\left \| \varepsilon \right \|

在非支持向量上  \left | \omega ^Tx_0+b \right |> 1

\therefore  y_i\left ( \omega ^Tx_i+b \right )\geq 1,(i=1\sim N)

其中 y_i \Rightarrow  协调超平面的左右

             \Rightarrow \left ( \omega ^Tx_0+b \right )> 1

             \Rightarrow \left ( \omega ^Tx_0+b \right )< 1

如果把  限制条件改成: y_i\left ( \omega ^Tx_i+b \right )\geq 2,那么会跟原来的相差一个 a ,根据【事实1】,他们代表的是用一个平面。

总结

线性可分的情况下,支持向量机寻找最佳超平面的优化问题可以表示为:

凸优化(Convex Optimization)\Rightarrow 只有唯一一个全局极值

最小化(Minimize): \frac{1}{2}\left \| \omega \right \|^2

限制条件:y_i=\left ( \omega ^Tx_i+b \right )\geq 1,(i=1\sim N)

在这个训练数据以及  \left ( X_i,y_i \right ),i=1\sim N 是已知的,而 \left ( \omega,b \right )  是待求的。

二次规划的定义:

(1)目标函数(Objective Function)是二次项。

目标函数:\frac{1}{2}\left \| \omega \right \|^2 \Rightarrow \frac{1}{2}\left \| \omega \right \|^2= \frac{1}{2} \omega_1 ^2+\frac{1}{2} \omega_2 ^2+...+\frac{1}{2} \omega_M ^2

(2)限制条件是一次项。

限制条件:y_i=\left ( \omega ^Tx_i+b \right )\geq 1,(i=1\sim N)

要么无解,要么只有唯一的最小值。

凸优化问题的例子

根据梯度不断试探。

先找到一个 \omega _0 和对应的 f\left ( \omega _0\right ),然后在 \omega _0 的旁边再找到一个 \omega _1 和对应的 f\left ( \omega _1\right ) 

一个优化问题是凸的 \Rightarrow 总能找到高效快速算法去解决它

用凸优化解出的支持向量机最佳分类超平面的例子:

用凸优化解出的支持向量机最佳分类超平面的例子

标签:MOOC,支持,20%,超平面,线性,训练样本,向量
From: https://blog.csdn.net/Jay_NanX/article/details/143432581

相关文章

  • 机器学习1_机器学习定义——MOOC
    一、机器学习定义定义一1959年ArthurSamuel提出机器学习的定义:MachineLearningisFieldsofstudythatgivescomputerstheabilitytolearnwithoutbeingexplicitlyprogrammed.译文:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式的编......
  • 零基础学习Spring AI Java AI使用向量数据库postgresql 检索增强生成 RAG
    零基础学习SpringAIJavaAI使用向量数据库postgresql检索增强生成RAG向量数据库是一种特殊类型的数据库,在人工智能应用中发挥着至关重要的作用。在向量数据库中,查询与传统的关系数据库不同。它们不是进行精确匹配,而是执行相似性搜索。当给定一个向量作为查询时,向量数......
  • 如何定义ggplot2 的scale_fill_manual() 中参数 values 的命名向量?
    需求背景对R语言中,ggplot2的scale_fill_manual()函数的values参数理解不到位,它这里需要的是一个命名向量,无法在c()函数内部直接创建一个向量。举例说明,以不同分类数据的条形图来作为图例。比如我有14个不同物种,绘制其不同颜色的条形图,注意颜色不能随便定义,需要指定每个......
  • 数据结构线性表
    语雀链接:https://www.yuque.com/g/wushi-ls7km/ga9rkw/vrhdf9bfkmshpzus/collaborator/join?token=C3AlDSf6fePw1XfO&source=doc_collaborator#《数据结构线性表》......
  • faiss用于大数据量的向量检索
    背景:10亿(Billion级别)的数据应该是一个很大的数据了,尤其是维度在768+级别(还有1024,1536等),这个数据量我做了一个实验,shape为(1kw,768)的array(numpy)占内存为30G(float32格式),如果能降低为float16更好不过,但似乎faiss没有这种方法或者精度有所损失。那么对于5亿级别的数据(vectors),占内存......
  • 简单的模型——线性回归
    从机器学习的角度出发,所谓线性回归,指的是自变量(特征)加权求和汇总求得因变量(标签)的过程,比如,我们以前上学时,见到的函数y=w1x1+w2x2+b就是一个非常典型的线性回归模型,在进一步学习这个模型之前,我们需要讲解一些建模过程中应用到的概念。#导入相关包importnumpyasnpimportp......
  • 深入理解多重共线性:基本原理、影响、检验与修正策略
    在数据科学和机器学习领域,构建可靠且稳健的模型是进行准确预测和获得有价值见解的关键。然而当模型中的变量开始呈现出高度相关性时,就会出现一个常见但容易被忽视的问题——多重共线性。多重共线性是指两个或多个预测变量之间存在强相关性,导致模型难以区分它们对目标变量的贡......
  • 【初阶数据与算法】线性表之顺序表的定义与实现
    文章目录一、线性表的概念二、顺序表1.概念与结构2.顺序表的分类静态顺序表动态顺序表三、顺序表的实现1.顺序表的结构2.顺序表的初始化和销毁初始化函数销毁函数3.顺序表的扩容4.顺序表的尾插和头插尾插函数头插函数5.顺序表的尾删和头删尾删函数头删函数6.顺序表......
  • Matlab 基于贝叶斯算法优化Transformer结合支持向量机回归(Bayes-Transformer-SVM)
    基于Bayes-Transformer-SVM多变量回归预测(多输入单输出)贝叶斯算法(BO/Bayes)优化参数为自注意力机制头数、正则化系数、学习率!你先用你就是创新!!!1.程序已经调试好,无需更改代码替换数据集即可运行!!!数据格式为excel!2.评价指标包含:RMSE、R2、MSE、MAE、MBE、MAPE、RPD。3.Tran......