回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值,以年龄 为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个 feature 的每个阈值 找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差。也就是被预测出错的 人数越多,错的越离谱,平方误差就越大,通过最小化平方误差能够找到最可靠的分枝依据。分 枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限),若最终叶子 节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。
提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时,每一棵回归树学习的是 之前所有树的结论和残差,拟合得到一个当前的残差回归树,残差的意义如公式:残差 = 真实值 - 预测值 。提升树即是整个迭代过程生成的回归树的累加。
梯度提升树,是提升树利用加法模型和前向分步算法实现学习的优化过程:
算法步骤解释:
1、初始化,估计使损失函数极小化的常数值,它是只有一个根节点的树,即一个常数值。
2、对输入的 x1,x2, … ,xm逐个进行以下训练过程:
(a)计算损失函数的负梯度在当前模型的值,将它作为残差的估计
(b)估计回归树叶节点区域,以拟合残差的近似值
(c)利用线性搜索估计叶节点区域的值,使损失函数极小化
(d)更新回归树 3、得到输出的最终模型 f(x)
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




