首页 > 编程语言 >Python机器学习-多元分类的5种模型

Python机器学习-多元分类的5种模型

时间:2022-09-04 09:56:40浏览次数:102  
标签:Python 模型 分类 多元 分类器 资料 类别 资料集 决策树

Python机器学习-多元分类的5种模型

最近上了些机器学习的课程,于是想透过Kaggle资料集来练习整个资料科学专案的流程,在模型训练阶段,虽然听过许多分类模型,但不是很了解其各别的优缺点与适合的使用时机,所以想来整理一篇文章,统整上课学习与网路资料,作为后续专案的优化方向!

首先,机器学习主要分为「监督式学习」与「非监督式学习」,两者的差异在于资料是否有「标签」。

监督式学习(Supervised Learning):给予「有标签」的资料,举例来说:给机器一堆苹果和橘子的照片,并说明哪些是苹果、哪些是橘子,再拿一张新的照片询问机器这是苹果还是橘子,而监督式学习又可分为回归(Regression)和分类(Classification)。

非监督式学习(Unsupervised Learning):给予「无标签」的资料,让机器找出潜在的规则,举例来说:给予机器一堆苹果和橘子的照片,但没有告诉机器这些照片各别是哪种水果,让机器自行找到资料间的相似性,而非监督式学习又可分为分群(Clustering)和降维(Dimension Reduction)。

这篇文章会以监督式学习中的分类模型为主。

一、逻辑回归(Logistic Regression)

逻辑回归是个二元分类(Binary Classification)的模型,并有其对应的机率值,举例:明天会下雨的机率有90%。

基本概念是利用线性回归线(Linear Regression Line),将资料分为A/B两类,再透过Sigmoid Function (or Logistic Function) 输出A类别的机率值(0~1),若机率>0.5则判断为A类别,因为是二元分类,所以当机率<0.5则被归类为B类别。

若需处理多元分类问题,有两种方法:
1. One versus Rest (or One versus All):将每个分类与其他剩余的资料做比较,若有N个类别,就需要N个二元分类器。以下方图例来说明,若有类别1~3,每次各使用一个类别与剩余的两个类别作二元分类后,会得到三个分类器,预测时把资料放到三个分类器中,看哪个分类器的分数较高,就判断为该类别。

One versus Rest Example

One versus Rest Example (Source from Internet)

2. One versus One:每次选择两个类别做分类,若有N个类别,就会有N*(N-1)/2个分类器,将每次分类的结果做投票,最后判断为票数最高的那个类别。举下方图例来说,有三个类别,会有三组分类器,最后新资料会判断为票数较高的类别1。

One versus One Example

One versus One Example (Source from Internet)

Logistic Regression的优点:
◆ 资料线性可分(包含在高维度空间找到linear plane)
◆ 除了分类,也可以得到A/B两类的机率
◆ 执行速度较快

Logistic Regression的缺点:
◆ 线性回归线的切法可能不够漂亮
◆ 不能很好地处理大量、多类特征

二、 支持向量机( 支持向量机,SVM)

支持向量机(Support Vector Machine)是在寻找一个超平面(Hyper-plane)来做分类,并使两个类别之间的边界距离最大化(会忽略异常点Outlier)。

SVM也可使用于非线性分类(如下图B),透过Kernels functions将低维空间转换为高维空间,让资料可以在高维空间被线性分类。想像红色球的重量比蓝色球还重,在平面上一拍,让球往上弹,重量重的红色球会较快落下,在立体空间就可以找出个平面来切分红色和蓝色球。

Support Vector Machine Example

Support Vector Machine Example (Source from Internet)

SVM的优点:
◆ 切出来的线或平面很漂亮,拥有最大边界距离(margin)
◆ 在高维空间可以使用(即使维度数大于样本数也有效)
◆ 在资料量较小、非线性、高维度与局部最小点等情况下有相对的优势

SVM的缺点:
◆ 当资料太多时,所需的训练时间太长,而使效果不佳
◆ 当资料集有太多noise时(如目标类别有重叠),预测的效果也会不好
◆ SVM不会直接提供机率的估计值

三、决策树(Decision Tree)

透过模型预测可以得知某个方程式来做分类,但方程式可能很难懂或很难解释,这时需要决策树(Decision Tree),它的准确性可能没有很精准,但「解释性」高,所以决策树是一种条件式的分类器,以树状结构来处理分类问题。

建构决策树的方式,是将整个资料集依据某个特征分为数个子资料集,再从子资料集依据某个特征,分为更小的资料集,直到子资料集都是同一个类别的资料,而该如何分类则是透过资讯熵(Entropy)和资讯增益(Information Gain)来决定。

1. 资讯熵(Entropy):用来衡量资料的不纯度,若资料为同一类Entropy=0,若资料「等分」成不同类别Entropy=1。

2. 资讯增益(Information Gain):用来衡量某个特征对于资料分类的能力,而建构决策树就是要找到具有最高资讯增益的分类法(得到纯度最高的分支)。简单来说,原本的资料集(High Entropy=E1),经过分类,得到多个资料集(Low Entropy=E2),其中的E1-E2=Information Gain。

Decision Tree的优点:
◆ 决策树容易理解和解释
◆ 资料分类不需要太多的计算
◆ 可以处理连续值和离散值
◆ 资料准备相对比较容易
(不需要做特征标准化、可以处理合理的缺失值、不受异常值的影响)
◆ 因为解释性高,能用在决策分析中,找到一个最可能达到目标的策略

Decision Tree的缺点: **
**◆ 容易过度拟合(Over-fitting)
◆ 若类别太多,但资料量太少,效果比较差

四、随机森林(Random Forest)

随机森林,是取部分特征与部分资料产生决策树,每重复此步骤,会再产生一颗决策树,最后再进行多数决投票产生最终结果。

随机森林可以降低决策树有过拟合的问题,因为最终结果是对所有的决策树结果进行投票,进而消除了单棵决策树的偏差。

Random Forest Example

Random Forest Example (Source from Internet)

Random Forest的优点:
◆ 随机森林的决策树够多,分类器就不会过拟合
◆ 每棵树会用到的资料和特征是随机决定的
◆ 训练或预测时每棵树都能平行化的运行

Random Forest的缺点: **
**◆ 当随机森林中的决策树个数很多时,训练时需要的空间和时间会比较大

五、极限梯度提升(eXtreme Gradient Boosting, XGBoost)

其实会想写这篇文章,是因为在使用Kaggle资料做练习时,发现网站上有需多人使用XGBClassifier做分类预测,因此想进一步了解这个模型。

XGBoost的两个主要概念:

1. 回归树(Classification and Regression Tree, CART)
回归树拥有和决策树一样的分支方式,并在各个叶端(Leaf)有一个预测分数(Prediction Score),且回归树是可以做集成的,也就是把资料丢到所有树中,把得到的预测分数加总。

2. 梯度提升
先以常数作为预测,在之后每次预测时新加入一个学习参数,要找出最佳参数,是在每次迭代中,使用贪婪演算法计算Gain,并找出最佳分支做新增,并对负Gain的分支做删减(详细请参考文章1说明)。换句话说,就是「希望后面生成的树,能够修正前面一棵树犯错的地方」。

Random Forest 和XGBoost 差异如下图例:
Random Forest是由多个决策树所组成,但最终分类结果并未经过加权平均;而XGBoost是由连续的决策树所建构,从错误的分类中学习,并在后续的决策树中增加更高的权重。

Random Forest and XGBoost Difference

Random Forest and XGBoost Difference (Reference: 參考文章3)

XGBoost的优点:
◆ 在损失函数中加入正则项,控制模型的复杂度,防止过拟合现象
◆ 在每次迭代后,会将叶子节点的权重乘上该系数,来削弱每棵树的影响

XGBoost的缺点: **
**◆ 空间复杂度过高,需要储存特征值和特征对应样本的梯度统计值

以上是5个机器学习常见的分类模型,整理基本的原理和概念,除了了解个别的差异外,也可以运用在自己的专案做尝试!

参考文章:
1. 【机器学习懒人包】从数据分析到模型整合,各种好用的演算法全都整理给你啦!
2. 机器学习— Gradient Boosting (1)
3. 建筑元素几何级别(LOG)分类的集成学习方法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/11952/38070409

标签:Python,模型,分类,多元,分类器,资料,类别,资料集,决策树
From: https://www.cnblogs.com/amboke/p/16654313.html

相关文章

  • Python 中的命名空间、变量和范围
    Python中的命名空间、变量和范围什么是命名空间?首先,我们需要感知python中的名称(标识符)是什么。众所周知,在python中,一切都是对象。名称帮助我们访问底层对象。例如,当我们......
  • 并发学习记录09:共享模型之内存
    Java内存模型JMM指的是Javamemorymodel,它定义了主存,工作内存等抽象概念,相当于做一个隔离层,将底层CPU寄存器,缓存,硬件内存,CPU指令优化提供的功能通过一个简单接口给使用......
  • 双向长短期记忆模型如何工作(深度学习)
    双向长短期记忆模型如何工作(深度学习)Photoby弗雷迪·雅各布on不飞溅使用改进的双向长短期记忆神经网络(arXiv)检测恶意请求作者:WenhaoLi,BinchengZhan......
  • python3之35个关键字详解
    一、python35个关键字列举:help("keywords")查看运行结果:1.and、or、not2.if、elif、else3.for、while4.True、False5.continue、break6.pass7.try、except、f......
  • Python实现XMind测试用例快速转Excel用例
    转载请注明出处❤️作者:测试蔡坨坨原文链接:caituotuo.top/c2d10f21.html你好,我是测试蔡坨坨。今天分享一个Python编写的小工具,实现XMind测试用例转Excel用例。前言XMi......
  • Python操作Excel表格
    转载请注明出处❤️作者:测试蔡坨坨原文链接:caituotuo.top/b0277e1c.html你好,我是测试蔡坨坨。上期我们分享了一个Python编写的小工具——「Python实现XMind测试用例......
  • 用于数据科学的 Java 与 Python
    用于数据科学的Java与Python一个对比有时做出判断的一个有用策略是仔细研究解决问题的两种方法的优缺点。如果您是数据科学的新手或正在开始一个新的数据科学项目并......
  • 在 ML 模型上进行协作变得容易
    在ML模型上进行协作变得容易所以当我在我的组织中部署我的第一个ML模型时,这发生在我身上,利益相关者对尝试它非常好奇。由于他们来自非技术背景,所以我认为分享我的jup......
  • “如何精通 Python?”——我 LinkedIn 上的一个常见问题。
    “如何精通Python?”——我LinkedIn上的一个常见问题。Photoby克里斯·里德on不飞溅1.你知道其他编程语言和数据结构的概念吗?不。由于您不了解任何基本的编......
  • Python3项目初始化10-->前端基础jquery、ajax,sweetalert--更新用户改造
    33、JS基础-ajax_post截止目前,完成了登录,创建和删除,“编辑”这块还是老的信息。打开a、点击编辑=>(内容)=>dialogb、内容=>后端ajax 页面上遍历用户时......