首页 > 其他分享 >人工智能学习总结_2

人工智能学习总结_2

时间:2024-01-20 17:37:28浏览次数:45  
标签:总结 基尼 训练 人工智能 回归 学习 特征 线性 决策树

人工智能

四、线性回归

4.1 线性回归

QQ图片20231210193510

(1)线性回归特点:解释性强,简单,泛化能力稳定。

(2)特征 : 输入的不同维度叫做特征。如果特征本身很重要,线性回归就很有效,但是挑选特征是非常困难的。(神经网络本质就是自动挑选、学习特征的机器)

(3)最小化损失函数的方法:梯度下降法

QQ图片20231211185427

梯度下降法的计算

4.2 感知算法

(1)感知算法是神经网络原始形式;只能够学线性可分的函数

(2)逻辑回归——二分类: f ( x ) = 在A类别的概率;1 - f ( x ) = 在B类别的概率

(3)逻辑回归——决策分界:sign ( wT x ) 的 “ 软化 ” 版本。

(4)多分类问题:与二分类问题相似,不过在其基础上添加了一个概率。不仅适用于线性问题,也适用于神经网络及其他多分类问题。(使用了softmax函数,即sigmoid函数的更一般形式)

4.3 熵

(1)信息熵

QQ图片20231211142928

(2)交叉熵:主观上认为一个事情发生的概率很低(1/ ps(x) 很大),但客观上发生概率很高(po(x) 很大)时,交叉熵很大。

​ ① XE(y, p) = - Σi yi log pi

​ ② 主观客观匹配时,交叉熵 = 信息熵

​ ③ 比使用 log yi 编码效率低,所以 XE(y, p) ≥ H(y)

(3)相对熵,KL散度:度量主观认识和客观之间的差异

(4)岭回归

​ ① 本质是 线性回归 + 控制参数长度

​ ② 虽然参数向量长度会短一些,但每个特征仍会得到一些(可能非常小的)系数

QQ图片20231211143900

(5)套索回归:寻找稀疏解

​ ① 使用 1- 范数 (矩形)

​ ② 优化:将每步梯度下降分为两部分(本质是拖到0),一直重复这两部分,直到两部分对冲,形成均衡。

(6)比较线性回归,岭回归,套索回归:线性回归的答案可以完美拟合最后的问题,岭回归给出的答案有更小的长度,套索给出的答案更加稀疏(第二个维度是0)。

4.4 支持向量机(SVM)

(1)硬边界 和 软边界

​ ① 硬边界:特征最多在边界上。

​ ② 软边界: “稍微越界了一点” 没问题。

(2)SVM-硬边界版本QQ图片20231211144832

(3)核方法:将数据变换到另一个线性可分的空间。(使用核函数)

​ ① 适用场景:不存在一个能正确划分两类样本的超平面时,使用核函数将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。

​ ② 问题:核函数维度过高,很难计算;分类器维度过高,很难计算。

五、决策树

5.1 决策树模型

(1)定义

​ ① 决策树适用于表格数据——特征既有类别特征也有数值特征

QQ图片20231211145435

​ ② 决策变量和目标

  • 决策变量:特征 X(是否来自陌生地址、是否包含 “转账” …)
  • 决策目标:预测值Y(回归问题,如预测目标是实数,如价格;分类问题,如预测目标是正常、垃圾邮件)

​ ③ 决策树表示一个分段常数函数(将输入的数据X所在空间分割为多个不同子空间,然后为每个子空间(对应一个叶子节点)赋予一个预测值)

​ ④ 特点:模型相对简单,具有较好的解释性,但是预测效果比不上更高级的模型

​ ⑤ 使用了自顶向下的构造算法

5.2 决策树的训练

(1)决策树的组成:叶子节点的预测值+决策树的结构。

(2) 决策树训练:产生一棵泛化能力强的决策树,通过特征逐级判断,从根节点——叶子赋值未见示例。

​ ① 初始化一根节点,对应所有训练数据。

​ ② 选择一个特征,设置一个分割条件。

​ ③ 依据该条件构造根的两个叶子,每个叶子对应一部分数据。

​ ④ 重复以上步骤至达到一定的终止条件。

根据损失函数易求出每片叶子上的最优预测值。

(3)划分选择

​ ① 决策树学习的关键:如何选择最优划分属性。(一般希望决策树分支结点所包含样本尽可能属于同一类别,即结点 “纯度” 越来越高)

​ ② 经典属性划分方法:信息增益、增益率、基尼指数。

​ ③ 信息增益:信息增益越大,使用属性 a 来进行划分所获得的 “纯度提升”越大。(ID3 决策树学习算法以信息增益为准测来选择划分属性)

信息增益的计算

(4)基尼指数:

​ ① 基尼值:反映了从D中随机抽取两个样本,其类别标记不一致的概率。用于度量数据集D的纯度,基尼值越小数据集D纯度越高。

QQ图片20231211151533

​ ②数据集D中属性a的基尼指数:

image-20231211151624303

​ ③ 应选择使划分后基尼指数最小的属性作为最优化分属性。(CART采用“基尼指数”来选择划分属性,以减少对数运算)

(5)剪枝

​ ① 预剪枝:在决策树的训练过程中加入限制条件, 避免违反这些限制条件的分割

​ ② 后剪枝:先训练一个规模足够大的决策树, 然后再删去多余的树分支

六、集成学习

6.1 集成学习

(1)集成学习思想: 集合一系列弱模型的预测结果,从而实现更稳定、表现更好的模型。

(2)集成方法

​ ① 平行的集成学习方法:引导聚集方法(随机森林)

​ ② 串行的集成学习方法:提升算法(梯度提升决策树)

6.2 随机森林

image-20231211172851356

​ (1)思想:训练多个决策树,在训练每个决策树时引入一定的随机性(避免在训练中多个决策树给出相同的预测)

​ (2)决策树训练

​ ① 在训练时随机选取训练数据的一部分进行训练,而不是训练全部数据。(选取80%训练数据训练)

​ ③ 决策树训练中分割叶节点时随机选取特征的一个子集,仅从该子集中选取最优分割条件

(3)预测

  • 回归问题:预测输出为所有决策树预测的均值
  • 分类问题:对所有决策树预测类别进行投票,取得票最高类别作为最终预测结果

(4)特点

​ ① 随机性:训练数据的随机性;特征选取的随机性(分割叶子节点时仅考虑随机选取的两个特征)

​ ② 限制决策树最大深度为1,不同子树相对独立

​ ③ 适用于表格型数据

(5)优缺点

​ ① 利用随机性在同一训练集上训练出多个不同的决策树,整合这些决策树的结果达到超过单个决策树的效果;模型效果一般比较好;训练速度比较慢(相对GDBT模型)。

6.3 梯度提升

image-20231211172904519

(1)思想:不断训练新的决策树,以弥补已经训练好的决策树的误差。

(2)特点

​ ① 梯度提升使用的子模型通常是决策树这样的简单模型

​ ② 广泛应用于表格类数据,使用非常广泛

​ ③ 新子树拟合已有子模型的结果相对于数据标签的残差或负梯度,字数间不独立

(3)防止过拟合:在第n + 1 轮损失函数中加入正则项Ω(T(n+1)) 来表示决策树Tn+1的复杂度。

(2)梯度提升决策树和随机森林相比:梯度提升决策树各个子模型之间存在更强的依赖关系。

标签:总结,基尼,训练,人工智能,回归,学习,特征,线性,决策树
From: https://www.cnblogs.com/robber-is-best/p/17976786

相关文章

  • 学习笔记——KMP模式匹配
    KMP模式匹配KMP算法能够在线性时间内判定字符串\(A\left[1\simN\right]\)是否是字符串\(B\left[1\simM\right]\)的字串,并求出字符串\(A\)在字符串\(B\)中各次出现的位置。详细来讲,KMP算法分为两步。对字符串\(A\)进行自我匹配求出一个数组\(next\),\(next\lef......
  • Check for balanced parentheses using stack【1月20日学习笔记】
    点击查看代码//Checkforbalancedparenthesesusingstack#include<iostream>#include<stack>//stackfromstandardtemplatelibrary(STL)#include<string>usingnamespacestd;boolarepair(charopening,charclosing){ if(opening=='(&#......
  • 关于SQL-case when最全面的学习笔记
    原文zhuanlan.zhihu.com/p/110198759?from_voters_page=truecasewhen推荐学习书籍:1、SQL基础教程6-32、SQL进阶教程1-1casewhen是SQL语法中提供的标准的条件分支。条件分支在MYSQL中即为IF函数,不同的数据库都会提供自己的一些函数,但是CASEWHEN更加通用。CASE语句......
  • 深度学习-神经网络原理-39
    目录1.神经网络算法是有监督的学习算法,2.分类3.训练4.代码进入新的内容,深度学习啦万事万物的产生不是一下子就变出来的,学术上也是,一点点的进步才催生出一门新的学科或者技术,神经网络用于机器学习也不例外,前面的机器学习的内容,线性回归,逻辑回归,多分类,决策树,以及各种集成学习......
  • 学习总结
    可以使用Vue作为前端框架,同时使用Python作为后端开发语言来实现你的想法。Vue是一个流行的JavaScript前端框架,它可以帮助你构建交互性强、响应式的用户界面。你可以使用Vue来创建页面布局、处理用户输入、进行数据绑定等等。而Python作为一种多用途的编程语言,也在后端开发领域非......
  • 1.20学习进度
    1.standaloneHA的运行原理:为解决单点故障问题,spark由两种方案:基于文件系统的单点恢复(只能用于开发或测试环境)、基于zookeeper的standbymaster(可以用于生产环境);基于zookeeper做状态的维护,开启多个master进程,一个作为活跃,其他的作为备份,当活跃进程宕机,备份master进行接管第五章1.......
  • 【scikit-learn基础】--『监督学习』之 空间聚类
    空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。随着数据量的增长和数据维度的增加,基于密度的算法逐渐引起了研究者的关注。其中,DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是......
  • 使用树莓派学习Linux驱动 硬件环境评估
    1.现有设备surface,树莓派3B 简介优点缺点树莓派+鼠标键盘显示屏开发方便需要购买小/静音键盘需要购买显示屏显示屏小了用着不舒服,大了太贵树莓派不需要显示屏!将来还要刷机不带桌面的核心系统surface+usb转串口只需要购买usb转串口线,成本低速......
  • 二项式反演学习笔记
    前置知识二项式定理:\((a+b)^n=\sum_{i=0}^n\binom{n}{i}a^ib^{n-i}\)。二项式反演反演公式1:\[f(n)=\sum_{i=0}^n\binom{n}{i}g(i)\iffg(n)=\sum_{i=0}^n(-1)^{n-i}\binom{n}{i}f(i)\]证明:\[\begin{aligned}\sum_{i=0}^n(-1)^{n-i}\binom{n}{i}f(i)&=\sum_{i=0......
  • 积性函数学习笔记
    积性函数定义积性函数:\(f(x)\)满足\(\forall\gcd(a,b)=1,f(ab)=f(a)f(b)\)若没有\(\gcd(a,b)=1\)的性质,则为完全积性函数。性质性质1:\(f(x),g(x)\)是积性函数\(\implies\)\(f\timesg\)是积性函数,\(f\divg\)是积性函数证明略。性质2:狄利克雷(Dirichlet)卷积\(......