深入理解随机森林模型：涵盖训练、评估、调参及应用的知识图谱

标签：调参及图谱涵盖特征随机拟合数据节点决策树

一、基本概念

集成学习
- 集成学习是将多个机器学习模型组合起来，以获得比单个模型更好的性能。随机森林就是一种集成学习方法，它通过构建多个决策树并综合它们的结果来进行预测。
- 例如，在预测天气是晴天还是雨天时，集成学习就像是询问多个气象专家（每个专家相当于一个决策树）的意见，然后综合这些意见来做出更准确的判断。
决策树基础
- 决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别（在分类问题中）或一个数值（在回归问题中）。
- 比如，在一个判断水果是苹果还是橙子的决策树中，内部节点可能是“颜色是否为红色”，如果是红色，就继续判断“形状是否为圆形”等，最后叶节点会给出是苹果还是橙子的结论。
随机森林的构成
- 随机森林由多个决策树组成。在训练阶段，通过对训练数据集进行有放回抽样（Bootstrap Sampling）来构建每一棵决策树。对于分类问题，最终的输出是这些决策树输出类别中得票最多的类别；对于回归问题，输出是这些决策树输出的平均值。

二、训练过程

数据抽样
- 有放回抽样（Bootstrap Sampling）：从原始训练数据集中随机地有放回地抽取样本，形成多个与原始数据集大小相同的子数据集。这样做的好处是，每个子数据集都有一定的相似性，但又包含不同的数据点，从而使得每棵决策树都能学习到数据的不同特征。
- 例如，假设有一个包含100个数据点的数据集，通过有放回抽样得到的每个子数据集可能会有一些数据点重复出现，也会有一些数据点没有被抽到。
特征选择
- 在构建每棵决策树时，对于每个节点的分裂，不是使用所有的特征，而是随机选择一个子集（通常是特征总数的平方根个特征）来寻找最佳分裂特征。这可以增加决策树之间的多样性，降低模型的方差。
- 例如，如果有16个特征，在每个节点分裂时可能只随机选择4个特征来考虑最佳分裂方式。
决策树生长
- 基于选定的子数据集和特征子集，按照决策树的生长算法（如ID3、C4.5或CART等）来构建决策树。决策树会不断地对节点进行分裂，直到满足停止条件，如节点中的样本数小于某个阈值、树的深度达到最大值等。

三、模型评估

评估指标（用于分类）
- 准确率（Accuracy）：正确分类的样本数占总样本数的比例，即\(Accuracy=\frac{TP + TN}{TP+TN+FP+FN}\)，其中TP（True Positive）是真正例，TN（True Negative）是真反例，FP（False Positive）是假正例，FN（False Negative）是假反例。
- 精确率（Precision）：\(Precision = \frac{TP}{TP + FP}\)，它衡量了预测为正例的样本中有多少是真正的正例。
- 召回率（Recall）：\(Recall=\frac{TP}{TP + FN}\)，它表示实际正例中有多少被正确地预测为正例。
- F1 - score：\(F1=\frac{2\times Precision\times Recall}{Precision + Recall}\)，它是精确率和召回率的调和平均数，综合考虑了精确率和召回率。
评估指标（用于回归）
- 均方误差（MSE）：\(MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2}\)，其中\(y_{i}\)是真实值，\(\hat{y}_{i}\)是预测值，n是样本数量。它衡量了预测值与真实值之间的平均平方误差。
- 平均绝对误差（MAE）：\(MAE=\frac{1}{n}\sum_{i = 1}^{n}\vert y_{i}-\hat{y}_{i}\vert\)，它表示预测值与真实值之间的平均绝对差值。
交叉验证（Cross - Validation）
- 常用的方法如k - 折交叉验证（k - fold Cross - Validation）。将数据集分成k个大小相似的子集，每次用k - 1个子集作为训练集，剩下的一个子集作为验证集，重复k次。这样可以得到更稳健的模型评估结果，避免过拟合评估。

四、超参数调整

决策树相关超参数
- 树的数量（n_estimators）：随机森林中决策树的数量。增加树的数量通常可以提高模型的性能，但也会增加计算成本。一般通过交叉验证来选择合适的树的数量。
- 树的最大深度（max_depth）：限制决策树的生长深度。较浅的树可能会欠拟合，而太深的树可能会过拟合。
- 节点分裂所需的最小样本数（min_samples_split）：节点分裂时所需的最小样本数。如果这个值设置得较大，决策树会比较简单，可能会欠拟合；如果设置得太小，树可能会过于复杂，导致过拟合。
随机森林特有的超参数
- 特征抽样比例（max_features）：在构建决策树时，每次用于分裂节点的特征子集的比例。合适的特征抽样比例可以增加决策树之间的多样性，一般默认是特征总数的平方根。

五、优点

准确性高
- 由于它是集成多个决策树的结果，能够学习到数据的复杂模式，通常比单个决策树具有更高的准确性。例如，在图像分类任务中，随机森林可以综合多个决策树对图像特征的判断，更准确地识别图像中的物体类别。
抗过拟合能力强
- 通过对数据的随机抽样和特征的随机选择，使得每棵决策树都有一定的差异，降低了模型的方差，从而对过拟合有一定的抵抗力。即使部分决策树出现过拟合，综合多个决策树的结果也能减轻过拟合的影响。
能够处理高维数据
- 可以有效地处理具有大量特征的数据。因为在每次构建决策树时只使用了部分特征，所以可以在高维数据中找到有意义的特征组合。例如，在基因数据分析中，可能有成千上万个基因特征，随机森林可以处理这些高维数据来预测疾病等。
对缺失数据和异常数据相对鲁棒
- 决策树本身对缺失数据和异常数据有一定的容忍度，随机森林作为决策树的集成，也继承了这一优点。在数据存在少量缺失或异常值时，仍然能够较好地工作。

六、缺点

计算成本高
- 由于需要构建多个决策树，训练时间和计算资源消耗相对较大。特别是当数据量非常大或者决策树数量很多时，训练过程可能会很漫长。
解释性相对较差
- 虽然决策树本身具有一定的可解释性，但随机森林是多个决策树的集成，解释其预测结果相对困难。不像单个决策树可以直观地看到每个节点的分裂规则，随机森林很难明确地指出某个预测结果是由哪些特征的组合导致的。
对类别不平衡数据敏感
- 当数据集中不同类别的样本数量差异很大时，可能会导致模型偏向于多数类。例如，在一个欺诈检测数据集中，如果正常交易的样本数量远远多于欺诈交易的样本数量，随机森林可能会更多地预测为正常交易，而忽略欺诈交易。

七、应用场景

分类问题
- 如垃圾邮件识别，将邮件分为垃圾邮件和非垃圾邮件；客户流失预测，判断客户是否会流失等。
回归问题
- 例如房价预测，根据房屋的各种特征（面积、房龄、周边设施等）来预测房价；股票价格预测，利用历史数据和相关指标来预测股票价格的走势等。

标签：调参及,图谱,涵盖,特征,随机,拟合,数据,节点,决策树
From： https://www.cnblogs.com/java-note/p/18628113

深入理解随机森林模型：涵盖训练、评估、调参及应用的知识图谱

相关文章

赞助商

阅读排行