为啥adboost不容易过拟合

百面机器学习 2020-04-17

738

点击上方蓝色字关注我们！

问题引入

大家可能都知道Adboost算法，可能在平时的小项目或者科研中用到这个算法，但是在比赛中可能用的不多，但是这个算法也算是一个比较经典的算法，主要它的思想也是比较好的。在使用过程中可能会关注模型的性能，那么Adaboost为啥不容易过拟合？

问题解答

在解决这个问题之前，我们需要先了解一下隐马科夫模型Adboost的定义是什么？Adaboost算法是一种提升方法，将多个弱分类器，组合成强分类器。AdaBoost，是英文”Adaptive Boosting“（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个弱分类器分错的样本的权值（样本对应的权值）会得到加强，权值更新后的样本再次被用来训练下一个新的弱分类器。在每轮训练中，用总体（样本总体）训练新的弱分类器，产生新的样本权值、该弱分类器的话语权，一直迭代直到达到预定的错误率或达到指定的最大迭代次数。

对于过拟合问题，如今找到的能解释只有Margin理论能解释的还不错，这个理论是从泛化错误 < 训练Margin项 + 学习算法容量相关项到泛化错误 < 训练Margin项最小值 + 学习算法容量相关项进行发展，国内的一些学者周志华王立威等也做了相关的研究。Margin理论讨论的主要是学习算法在训练样本上的信心.通过其他一些在variance-bias 分解实验中也观察到，AdaBoost不仅是减少了bias，同时也减少了variance，variance的减少往往与算法容量减少有关。有兴趣的小伙伴可以看一下参考文献。

参考

https://www.zhihu.com/question/41047671
https://wenku.baidu.com/view/8efc9b880975f46527d3e1cb.html
https://jeremykun.com/2015/09/21/the-boosting-margin-or-why-boosting-doesnt-overfit/

喜欢就关注一下啦~~~

数据库

文章转载自百面机器学习，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

为啥adboost不容易过拟合

问题解答

评论