暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

梯度提升树算法介绍——GBASE

郑小雯 2023-10-19
272

回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值,以年龄 为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个 feature 的每个阈值 找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差。也就是被预测出错的 人数越多,错的越离谱,平方误差就越大,通过最小化平方误差能够找到最可靠的分枝依据。分 枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限),若最终叶子 节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时,每一棵回归树学习的是 之前所有树的结论和残差,拟合得到一个当前的残差回归树,残差的意义如公式:残差 = 真实值 - 预测值 。提升树即是整个迭代过程生成的回归树的累加。

梯度提升树,是提升树利用加法模型和前向分步算法实现学习的优化过程:

算法步骤解释: 

 1、初始化,估计使损失函数极小化的常数值,它是只有一个根节点的树,即一个常数值。 

 2、对输入的 x1,x2, … ,xm逐个进行以下训练过程:

(a)计算损失函数的负梯度在当前模型的值,将它作为残差的估计

(b)估计回归树叶节点区域,以拟合残差的近似值

(c)利用线性搜索估计叶节点区域的值,使损失函数极小化

(d)更新回归树 3、得到输出的最终模型 f(x) 

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论