一、基本概念
-
定义
- 梯度提升树(Gradient Boosting Tree,GBT)是一种基于boosting框架的集成学习算法,用于回归和分类问题。它通过迭代地训练决策树,并将前一棵树的残差作为下一棵树的训练目标,逐步减少预测误差。
- 集成学习是将多个弱学习器(在梯度提升树中,弱学习器通常是决策树)组合成一个强学习器的方法。梯度提升树的核心思想是沿着损失函数的负梯度方向,逐步构建新的决策树来修正前面模型的不足。
-
与其他模型的对比
- 与随机森林的对比:
- 随机森林是基于bagging(自助采样法)的集成学习方法,它通过对训练数据集进行有放回的抽样,构建多个相互独立的决策树,然后对这些决策树的结果进行投票(分类问题)或平均(回归问题)。而梯度提升树是基于boosting的方法,它的决策树是顺序构建的,后一棵树依赖于前一棵树的结果。
- 随机森林中决策树之间相对独立,而梯度提升树的决策树之间存在较强的依赖关系。
- 与传统决策树的对比:
- 传统决策树是一个单一的模型,容易出现过拟合等问题。梯度提升树通过集成多个决策树,降低了过拟合的风险,并且能够学习到更复杂的函数关系。
- 与随机森林的对比:
二、工作原理
- 初始化模型
- 在梯度提升树的开始阶段,会初始化一个简单的模型,通常是一个常数模型。例如,在回归问题中,这个常数可以是目标变量的均值;在分类问题中,可以是正类或负类的先验概率。设初始模型为\(F_0(x)\),对于回归问题,\(F_0(x)=\arg\min_{\gamma}\sum_{i = 1}^{n}L(y_i,\gamma)\),其中\(L\)是损失函数,\(y_i\)是第\(i\)个样本的真实标签,\(n\)是样本数量。
- 迭代构建决策树
- 对于第\(m\)次迭代(\(m = 1,2,\cdots,M\),\(M\)是总的迭代次数):
- 计算负梯度:根据当前模型\(F_{m - 1}(x)\)和损失函数\(L\),计算训练样本的负梯度\(r_{im}=-\left[\frac{\partial L(y_i,F_{m - 1}(x_i))}{\partial F_{m - 1}(x_i)}\right]\),这一步是关键,它将损失函数的梯度信息融入到模型的构建中。
- 拟合决策树:使用计算得到的负梯度\(r_{im}\)作为新的目标变量,拟合一棵决策树\(h_m(x)\)。这棵决策树的目标是最小化拟合这些负梯度的平方误差(在很多情况下)。
- 更新模型:通过一个学习率\(\nu\)更新模型,\(F_m(x)=F_{m - 1}(x)+\nu h_m(x)\)。学习率是一个小于1的正数,它控制了每棵树对最终模型的贡献程度,较小的学习率可以减少过拟合的风险。
- 对于第\(m\)次迭代(\(m = 1,2,\cdots,M\),\(M\)是总的迭代次数):
- 预测阶段
- 对于一个新的样本\(x_{new}\),通过最终的模型\(F_M(x_{new})\)进行预测。在分类问题中,通常会对预测结果进行概率转换(如使用sigmoid函数等),然后根据概率阈值判断类别;在回归问题中,直接输出模型的预测值。
三、损失函数
- 回归问题常用损失函数
- 平方损失函数\(L(y,F(x))=(y - F(x))^2\),它的梯度计算简单,并且对于回归问题比较直观。当使用平方损失函数时,负梯度就是当前模型预测值与真实值的残差\(r_{i}=y_{i}-F_{m - 1}(x_{i})\)。
- 绝对损失函数\(L(y,F(x))=\vert y - F(x)\vert\),它对于异常值相对更鲁棒,不像平方损失函数那样会对异常值产生过大的惩罚。
- 分类问题常用损失函数
- 对数损失函数(用于二分类)\(L(y,p)=-(y\log(p)+(1 - y)\log(1 - p))\),其中\(y\in\{0,1\}\)是真实标签,\(p\)是预测为正类的概率。在这种情况下,负梯度的计算涉及到概率和真实标签的复杂关系,用于更新决策树的拟合目标。
- 多分类的交叉熵损失函数,用于多分类问题,它的形式更加复杂,涉及到多个类别概率的计算,但基本思想是衡量预测概率分布与真实标签分布之间的差异。
四、模型参数
- 迭代次数(树的数量)\(M\)
- 它决定了模型的复杂度。较小的\(M\)可能导致模型欠拟合,无法充分学习数据中的模式;而过大的\(M\)可能导致过拟合,模型会对训练数据中的噪声也进行学习。可以通过交叉验证等方法来选择合适的\(M\)。
- 学习率\(\nu\)
- 学习率控制了每棵树对最终模型的贡献程度。较小的学习率意味着模型需要更多的树来达到较好的性能,但同时也降低了过拟合的风险;较大的学习率可能使模型收敛更快,但也更容易过拟合。
- 决策树的参数
- 包括树的深度、叶子节点数量、分裂节点的特征选择方法等。这些参数会影响每棵决策树的复杂度,进而影响整个梯度提升树模型的性能。例如,较深的树可能会过度拟合数据,而较浅的树可能无法很好地学习复杂的函数关系。
五、应用场景
- 数据挖掘和机器学习竞赛
- 在Kaggle等数据竞赛平台上,梯度提升树模型是非常受欢迎的算法。它在各种结构化数据的预测任务中,如预测房价、客户流失、疾病诊断等问题上表现出色,能够取得较高的准确率和较低的误差。
- 工业界应用
- 在金融领域,用于信用风险评估、股票价格预测等;在电商领域,用于商品推荐、用户购买行为预测等;在医疗领域,辅助医生进行疾病诊断、预测疾病的复发概率等。
六、模型评估和优化
- 评估指标
- 对于回归问题,常用的评估指标有均方误差(MSE)\(MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\)、平均绝对误差(MAE)\(MAE=\frac{1}{n}\sum_{i = 1}^{n}\vert y_i - \hat{y}_i\vert\)等。
- 对于分类问题,有准确率(Accuracy)\(Accuracy=\frac{TP + TN}{TP + TN+ FP + FN}\)、精确率(Precision)\(Precision=\frac{TP}{TP + FP}\)、召回率(Recall)\(Recall=\frac{TP}{TP + FN}\)、F1 - score\(F1 - score=\frac{2\times Precision\times Recall}{Precision + Recall}\)等,其中\(TP\)是真正例,\(TN\)是真反例,\(FP\)是假正例,\(FN\)是假反例。
- 超参数优化方法
- 网格搜索:它通过遍历预先定义的超参数组合来寻找最优的超参数。例如,对于学习率和树的数量,可以定义一个网格,如学习率\(\nu\in\{0.01,0.1,0.2\}\),树的数量\(M\in\{10,50,100\}\),然后对每一种组合进行模型训练和评估,选择性能最好的组合。
- 随机搜索:与网格搜索类似,但它是从超参数空间中随机抽取组合进行评估,在某些情况下,它可以更高效地探索超参数空间,尤其是当超参数空间较大时。
- 贝叶斯优化:它是一种基于贝叶斯定理的优化方法,通过建立超参数和模型性能之间的概率模型,来更智能地搜索超参数空间,通常可以用较少的试验次数找到较好的超参数组合。