梯度提升树算法介绍——GBASE

郑小雯 2023-10-19

272

回归树总体流程类似于分类树，区别在于，回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个 feature 的每个阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化平方误差。也就是被预测出错的人数越多，错的越离谱，平方误差就越大，通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)，若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时，每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树，残差的意义如公式：残差 = 真实值 - 预测值。提升树即是整个迭代过程生成的回归树的累加。

梯度提升树，是提升树利用加法模型和前向分步算法实现学习的优化过程：

算法步骤解释：

1、初始化，估计使损失函数极小化的常数值，它是只有一个根节点的树，即一个常数值。

2、对输入的 x1,x2, … ,xm逐个进行以下训练过程：

（a）计算损失函数的负梯度在当前模型的值，将它作为残差的估计

（b）估计回归树叶节点区域，以拟合残差的近似值

（c）利用线性搜索估计叶节点区域的值，使损失函数极小化

（d）更新回归树 3、得到输出的最终模型 f(x)

gbase

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

梯度提升树算法介绍——GBASE

评论