首页 > 其他分享 >详解支持向量机-探索核函数的优势和缺陷【菜菜的sklearn课堂笔记】

详解支持向量机-探索核函数的优势和缺陷【菜菜的sklearn课堂笔记】

时间:2022-11-23 17:00:24浏览次数:98  
标签:kernel 00 函数 菜菜 详解 under rbf accuracy sklearn

视频作者:菜菜TsaiTsai 链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili

看起来,除了Sigmoid核函数,其他核函数效果都还不错。但其实rbf和poly都有自己的弊端,我们使用乳腺癌数据集作为例子来展示一下:

from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np
from time import time
import datetime # 将时间戳转化为真实地时间

data = load_breast_cancer()
X = data.data
y = data.target

X.shape
---
(569, 30)

np.unique(y)
---
array([0, 1])

注意我们并不通过可视化数据集来选择核函数,而是直接尝试选择核函数(这里就很不合适,数据明明有30个维度,我们任意选择前两个维度,是没有道理的)

plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

![[附件/Pasted image 20221024134552.png|350]]

我们可以考虑降维,降维成二维

from sklearn.decomposition import PCA

X_dr = PCA(2).fit_transform(X)
plt.scatter(X_dr[:,0],X_dr[:,1],c=y,alpha=0.3)
plt.show()

![[附件/Pasted image 20221024134702.png|350]]

Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=420)
Kernel = ["linear","poly","rbf","sigmoid"]

# 注意以下这一段跑不出结果
for kernel in Kernel:
    time0 = time()
    clf = SVC(kernel=kernel
             ,gamma="auto"
            # ,degree=1 # degree:核函数的次方数,默认是3
              # 之前说过当degree为1的时候用于线性,高次用于非线性
              # 但是之前使用默认值的时候跑了将近十分钟没有跑出poly的结果,放弃了
             ,cache_size=5000
             ).fit(Xtrain,Ytrain)
    # cache_size:表示允许使用多大的内存进行计算,单位MB。默认200
    # 用的内存越多运行越快(蓝屏可能性越大)
    print("The accuracy under kernel %s is %f"%(kernel, clf.score(Xtest,Ytest)))
    print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))
# 一般SVM不需要过长的时间,超过五六分钟不出结果基本就可以选择打断了
---
The accuracy under kernel linear is 0.929825
00:00:396585

关于time()

now = time() # 返回一串浮点数,就是时间戳

datetime.datetime.fromtimestamp(now).strftime("%Y-%m-%d,%H:%M:%S:%f")
---
'2022-10-24,10:33:16:370524'

之前说到模型一直停留在线性核函数之后,就没有再打印结果了。这证明,多项式核函数此时此刻要消耗大量的时间,运算非常的缓慢。让我们在循环中去掉多项式核函数,再试试看能否跑出结果

Kernel = ["linear","rbf","sigmoid"] # 谁慢把谁删了
for kernel in Kernel:
    time0 = time()
    clf = SVC(kernel=kernel
             ,gamma="auto"
            # ,degree=1 
             ,cache_size=5000
             ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f"%(kernel, clf.score(Xtest,Ytest)))
    print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))
    # 基本秒出,所以证明是多项式核函数阻碍了我们的运行
---
The accuracy under kernel linear is 0.929825
00:00:405324
The accuracy under kernel rbf is 0.596491
00:00:038619
The accuracy under kernel sigmoid is 0.596491
00:00:006005

我们可以有两个发现。首先,乳腺癌数据集是一个线性数据集,线性核函数跑出来的效果很好。rbf和sigmoid两个擅长非线性的数据从效果上来看完全不可用。其次,线性核函数的运行速度远远不如非线性的两个核函数。

关于rbf不是应当适用于所有数据吗,这里别着急,接着往下看

如果数据是线性的,那如果我们把degree参数调整为1,多项式核函数应该也可以得到不错的结果:

Kernel = ["linear","poly","rbf","sigmoid"]
for kernel in Kernel:
    time0 = time()
    clf = SVC(kernel=kernel
             ,gamma="auto"
             ,degree=1
              # 上面我们已经能看出,对于这个数据集,线性核比非线性核效果要好
              # 因此我们可以考虑degree等于1,让多项式核函数运行线性结果
              # 同时,加快多项式核函数的速度
             ,cache_size=5000
             ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f"%(kernel, clf.score(Xtest,Ytest)))
    print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))
---
The accuracy under kernel linear is 0.929825
00:00:396625
The accuracy under kernel poly is 0.923977
00:00:075855
The accuracy under kernel rbf is 0.596491
00:00:039003
The accuracy under kernel sigmoid is 0.596491
00:00:005001

多项式核函数的运行速度立刻加快了,并且精度也提升到了接近线性核函数的水平。但是,我们之前的实验中,我们了解说,rbf在线性数据上也可以表现得非常好,那在这里,为什么跑出来的结果如此糟糕呢? 其实,这里真正的问题是数据的量纲问题。回忆一下我们如何求解决策边界,如何判断点是否在决策边界的一边?是靠计算”距离“,虽然我们不能说SVM是完全的距离类模型,但是它严重受到数据量纲的影响。让我们来探索一下乳腺癌数据集的量纲:

import pandas as pd

data = pd.DataFrame(X)
data.describe([0.01,0.05,0.1,0.25,0.5,0.75,0.9,0.99]).T
# describe:对数据进行描述性分析
# 接收数组,表示分位数
# 看不同维度的均值和方差,看数据有量纲不统一
# 观察1%和min,99%和max,看数据是否有偏态的问题
---
# 这里简述以下,打印出来太多了
# 部分行均值在0.几,部分行甚至到达了几百将近一千,且这些均值大的数据方差也大,因此一定有量纲不统一的问题
# 观察1%和min,99%和max。有一行99%还是177,到了max就是542,因此数据有偏态问题(偏态也就是非正态)

对于量纲不统一我们可以考虑标准化

from sklearn.preprocessing import StandardScaler

X = StandardScaler().fit_transform(X)
# 标准化,即均值为0,方差为1
data = pd.DataFrame(X)
data.describe([0.01,0.05,0.1,0.25,0.5,0.75,0.9,0.99]).T
---
# 此时数据均值基本接近0,方差接近1

标准化完毕后,再次让SVC在核函数中遍历,此时我们把degree的数值设定为1,观察各个核函数在去量纲后的数据上的表现:

Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=420)
# 由于random_state=420没变,所以训练集测试集划分不变
Kernel = ["linear","poly","rbf","sigmoid"]
for kernel in Kernel:
    time0 = time()
    clf = SVC(kernel=kernel
             ,gamma="auto"
             ,degree=1
             ,cache_size=5000
             ).fit(Xtrain,Ytrain)
    print("The accuracy under kernel %s is %f"%(kernel, clf.score(Xtest,Ytest)))
    print(datetime.datetime.fromtimestamp(time()-time0).strftime("%M:%S:%f"))
    # 虽然这里看rbf表现没有linear好,但实际上linear没有参数可调,rbf可以调参,因此我们继续对rbf探索
---
The accuracy under kernel linear is 0.976608
00:00:007997
The accuracy under kernel poly is 0.964912
00:00:006007
The accuracy under kernel rbf is 0.970760
00:00:006997
The accuracy under kernel sigmoid is 0.953216
00:00:004000

量纲统一之后,可以观察到,所有核函数的运算时间都大大地减少了。其次,rbf表现出了非常优秀的结果。经过我们的探索,我们可以得到的结论是:

  1. 线性核,尤其是多项式核函数在高次项时计算非常缓慢
  2. rbf和多项式核函数都不擅长处理量纲不统一的数据集

这两个缺点都可以由数据无量纲化来解决。因此,SVM执行之前,非常推荐先进行数据的无量纲化! 虽然线性核函数的效果是最好的,但它是没有核函数相关参数可以调整的,rbf和多项式却还有着可以调整的相关参数,接下来我们就来看看这些参数。

标签:kernel,00,函数,菜菜,详解,under,rbf,accuracy,sklearn
From: https://blog.51cto.com/u_15767241/5881516

相关文章

  • Opencore 常见kext驱动详解
    常用驱动AirportBrcmFixup:用于修复不能免驱的博通无线网卡AlpsT4USB:是VoodooI2C的插件,为AlpsT4USB触控板提供原生苹果手势支持AppleALC:用于驱动ALC芯片声卡,和Voodo......
  • Android gradle依赖:implementation 和compile以及其他详解
    2017年google后,Androidstudio版本更新至3.0,更新中,连带着com.android.tools.build:gradle工具也升级到了3.0.0,在3.0.0中使用了最新的Gralde4.0里程碑版本作为gradl......
  • Dockerfile 详解
    Dockerfile详解 认识Dockerfile1、镜像的生成路径基于容器制作dockerfile,dockerbuild 2、Dockerfile介绍   镜像的定制实际上就是定制每一层所......
  • SQL Server数据类型转换函数cast()和convert()详解
    https://blog.csdn.net/m0_67401382/article/details/126117592常用的函数有cast()和convert()。cast()和convert()函数比较:(1)cast一般更容易使用,convert的优点是可以格......
  • Elasticsearch-集群架构详解
    作者:少强原文:https://zhuanlan.zhihu.com/p/32990496分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大。这篇文章中,重点会讨......
  • Make之configure详解
    Make之configure详解Linux环境下,如果通过源代码编译安装程序的简单过程可以描述为:./configure-->make-->makeinstall。其中./configure配置脚本功能就是对你的系统做很......
  • 【转载】ElasticSearch集群搭建及集群原理详解
    首先进行单机安装,见以下:Elasticsearch+Kibana+IK分词器安装-檀潇兵-博客园(cnblogs.com)1集群搭建1.1修改配置每台机器修改elasticsearch.yml......
  • Day20:继承详解
    继承的理解继承:对类进行抽象化;也就是将存在的类构造成新的类;比如说学生是一个类,老师是一个类,那么我们可以将学生类和老师类收纳进人这个类;那么学生和老师则为子类(派生类)......
  • 详解蓝牙模块的分类
        摘要:蓝牙模块,是一种集成蓝牙功能的PCBA板,用于短距离无线通讯,蓝牙模块将芯片和外围硬件电路集成到一个PCB上,开发出所需的内置程序实现蓝牙功能的设备。可以通过......
  • C++语言类的详解和示例
     超女选秀的例子我们玩了很久,为了教学的需要,暂时离开美眉们,我将采用实际项目开发的例子。在C语言基础知识中已学习过文件操作,在实际开发中,我会把文件操作封装成一个类,类的......