【机器学习算法】回归算法（下） #一文归纳众多算法，建议收藏

线性核：当数据在特征空间中已经是线性可分的，线性核可以直接找到分隔超平面。多项式核：当数据不是线性可分的，多项式核可以将数据映射到更高维的空间，在这个新空间中寻找线性分隔超平面。径向基函数（RBF）核：也是一种处理非线性数据的核函数，它通过将数据映射到无限维空间来寻找分隔超平面。

决策树

决策树算法是一种模仿人类决策过程的分类和回归方法。它通过一系列的问题将数据分割成越来越小的子集，直到每个子集可以被分类到一个明确的预测类别，或者可以预测出一个数值。

特点有：

树状结构：决策树由节点和分支组成，类似于树的结构。每个内部节点代表一个特征上的判断，每个分支代表判断的结果，而每个叶节点代表一个预测结果。

特征选择：决策树在每个节点上使用一个特征来分割数据。特征的选择基于一些标准，如信息增益、信息增益率或基尼不纯度。

递归分割：决策树通过递归地选择最佳特征并分割数据集来构建。这个过程一直持续到满足停止条件。

优缺点：

优点是决策树的结构清晰，容易解释模型是如何做出预测的。而且决策树可以被可视化，有助于理解模型的决策过程。

缺点是决策树容易对训练数据过拟合，尤其是在不设置限制的情况下。同时，决策树对数据中的噪声和异常值比较敏感。

集成算法

集成算法（Ensemble Methods）是机器学习中的一种技术，它将多个模型的预测结果结合起来，以期望得到比单个模型更好的性能。集成学习的基本思想是“集思广益”，即通过组合多个模型来减少预测误差，提高模型的泛化能力。

整理一下各种集成算法的“家谱”：

Ensemble Methods：集成方法
boosting：提升方法
bagging：自助聚合
stacking：堆叠
AdaBoost：自适应增强
BoostingTree：提升树
RF（Random Forest）：随机森林
GBDT（Gradient Boosting Decision Tree）：梯度提升决策树
XGboost：极端梯度提升
LightGBM：轻量梯度提升机

Bagging

Bagging，全称为Bootstrap Aggregating，即自助聚合。

Bagging是一种集成学习方法，用于提高模型的稳定性和降低过拟合风险。它通过以下步骤实现：

自助采样：从原始训练数据集中进行有放回抽样，生成多个不同的数据集。
独立训练：在每个抽样得到的数据集上独立地训练一个基学习器（如决策树）。
聚合结果：将所有基学习器的预测结果进行聚合，通常是通过投票（分类）或平均（回归）的方式。

Bagging的典型代表是随机森林（Random Forest），它不仅使用自助采样，还在决策树的分裂过程中引入随机性，以增强模型的多样性和泛化能力。

Boosting

Boosting，全称为Boosted Regression Trees，即提升回归树，是一种通过逐步添加弱学习器来最小化分类或回归误差的集成学习技术。

Boosting 是一种集成学习技术，它通过逐步添加弱学习器来最小化错误率。

顺序训练：从初始模型开始，顺序地添加弱学习器，每个新学习器都尝试纠正前一个学习器的错误。
关注错误：每个新学习器都对被前一个学习器错误分类的样本赋予更高的权重。
加权组合：最终的预测结果是所有弱学习器预测的加权组合，权重通常与学习器的性能相关。

例子：AdaBoost、梯度提升树（Gradient Boosting Trees）。

Stacking

Stacking，全称为Stacked Generalization，即堆叠泛化，是一种将多个基学习器的预测结果作为新特征输入给元学习器的集成学习技术。

Stacking 是一种集成学习技术，它将多个基学习器的预测作为新特征，输入给一个元学习器来进行最终预测。

基学习器：训练一组不同的基学习器，每个学习器可以是不同类型的算法。
生成新特征：基学习器的预测结果被用作新特征。
训练元学习器：在这些新特征上训练一个元学习器，学习如何最好地结合基学习器的预测。

例子：堆叠模型通常包含多种机器学习算法，元学习器可以是逻辑回归、随机森林或梯度提升树等。

标签：集成,SVM,一文,归纳,学习,算法,数据,决策树
From： https://blog.csdn.net/wwl412095144/article/details/139398876

【机器学习算法】回归算法（下） #一文归纳众多算法，建议收藏

SVM

软边界和硬边界

核函数

决策树

集成算法

Bagging

Boosting

Stacking

相关文章

赞助商

阅读排行