- 定义与基本概念
- 决策树是一种基于树结构(包括根节点、内部节点、叶节点)进行决策的模型。根节点是整个决策过程的开始,内部节点代表一个属性上的测试,叶节点代表最终的决策结果或类别。
- 例如,在一个判断水果是苹果还是橙子的决策树中,根节点可能是“颜色”这个属性,内部节点可以是“形状”等其他属性,叶节点则是“苹果”或“橙子”的判断结果。
- 决策树的构建过程
- 特征选择:
- 目的是选择对分类或回归任务最有区分能力的特征作为当前节点的分裂属性。常用的特征选择标准有信息增益(ID3算法)、信息增益率(C4.5算法)和基尼指数(CART算法)。
- 以信息增益为例,信息增益衡量的是使用某个特征对数据集进行划分后,信息不确定性减少的程度。假设数据集\(D\)的熵(表示信息的不确定性)为\(Ent(D)\),使用特征\(A\)划分数据集后,信息增益\(Gain(D,A)=Ent(D)-\sum_{v = 1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})\),其中\(V\)是特征\(A\)可能取值的个数,\(D^{v}\)是特征\(A\)取值为\(v\)的子集。
- 树的生成:
- 根据选定的特征选择标准,从根节点开始,递归地构建决策树。在每个节点上,选择最佳的特征进行分裂,直到满足停止条件。
- 停止条件通常包括节点中的样本数小于某个阈值、样本属于同一类别或者树的深度达到预设的最大值等。
- 剪枝处理:
- 决策树在生成过程中容易出现过拟合现象,即对训练数据拟合得很好,但对新数据的预测能力较差。剪枝是为了防止过拟合,提高决策树的泛化能力。
- 预剪枝是在树的生成过程中提前停止树的构建,例如当某个节点的划分不能带来性能提升(如准确率提高)时,就不再对该节点进行分裂。后剪枝是在生成完整的决策树之后,从树的叶节点开始,逐步向上剪枝,比较剪枝前后树的性能,若性能不下降则进行剪枝。
- 特征选择:
- 不同决策树算法
- ID3算法:
- 它是最早的决策树算法之一,以信息增益作为特征选择标准。优点是算法简单、易于理解,缺点是倾向于选择取值较多的特征,可能导致过拟合。
- C4.5算法:
- 是对ID3算法的改进,采用信息增益率来选择特征。信息增益率克服了ID3算法对取值数目较多的属性的偏好。同时,C4.5算法能够处理连续值属性和缺失值属性。
- CART算法(分类与回归树):
- 既可以用于分类任务,也可以用于回归任务。对于分类任务,使用基尼指数选择特征,基尼指数\(Gini(D)=1 - \sum_{k = 1}^{|K|}p_{k}^{2}\),其中\(K\)是类别集合,\(p_{k}\)是样本属于类别\(k\)的概率。对于回归任务,CART算法使用最小二乘法来选择最佳分裂点。
- ID3算法:
- 决策树的评估指标
- 准确率(Accuracy):
- 对于分类问题,准确率是指正确分类的样本数占总样本数的比例,即\(Accuracy=\frac{TP + TN}{TP + TN+FP + FN}\),其中\(TP\)(真阳性)是实际为正类且被预测为正类的样本数,\(TN\)(真阴性)是实际为负类且被预测为负类的样本数,\(FP\)(假阳性)是实际为负类但被预测为正类的样本数,\(FN\)(假阴性)是实际为正类但被预测为负类的样本数。
- 精确率(Precision)和召回率(Recall):
- 精确率\(Precision=\frac{TP}{TP + FP}\),衡量的是预测为正类的样本中有多少是真正的正类。召回率\(Recall=\frac{TP}{TP + FN}\),衡量的是实际正类样本中有多少被正确预测为正类。
- F1 - score:
- 是精确率和召回率的调和平均数,\(F1 - score=\frac{2\times Precision\times Recall}{Precision + Recall}\),综合考虑了精确率和召回率,用于平衡两者之间的关系。对于回归问题,可以使用均方误差(MSE)、平均绝对误差(MAE)等指标。均方误差\(MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2}\),其中\(y_{i}\)是真实值,\(\hat{y}_{i}\)是预测值,\(n\)是样本数量。平均绝对误差\(MAE=\frac{1}{n}\sum_{i = 1}^{n}|y_{i}-\hat{y}_{i}|\)。
- 准确率(Accuracy):
- 应用场景
- 分类问题:
- 广泛应用于医疗诊断(如判断患者是否患有某种疾病)、金融风险评估(如判断客户是否会违约)、图像识别(如判断图像中的物体是哪一类)等领域。例如,在医疗诊断中,决策树可以根据患者的症状、检查结果等特征来判断患者是否患有某种疾病。
- 回归问题:
- 可用于预测房价、股票价格等连续值。比如,根据房屋的面积、房龄、周边配套设施等特征来预测房屋价格。
- 分类问题:
- 决策树的优势和局限性
- 优势:
- 模型具有很好的可解释性,决策过程可以通过树结构直观地展示出来,易于理解和解释。能够处理离散型和连续型数据,对数据的分布没有严格要求。
- 局限性:
- 容易过拟合,尤其是在数据量较小或特征维度较高的情况下。对缺失值比较敏感,如果数据中有大量缺失值,可能会影响决策树的构建和性能。并且单棵决策树的预测能力相对较弱,在一些复杂的任务中可能不如深度学习模型等。不过可以通过集成学习方法(如随机森林)来弥补这些不足。
- 优势: