集成学习(三)

2024-06-28 23:29| 来源: 网络整理| 查看: 265

Bagging能够提高弱分类器性能的原因是降低了方差，Boosting 能够提升弱分类器性能的原因是降低了偏差。

Boosting

Adaboost、GBDT都是boosting

Boosting方法是一种用来提高弱分类算法准确度的方法，Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。

它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

Boosting的过程很类似于人类学习的过程，我们学习新知识的过程往往是迭代式的，第一遍学习的时候，我们会记住一部分知识，但往往也会犯一些错误，对于这些错误，我们的印象会很深。第二遍学习的时候，就会针对犯过错误的知识加强学习，以减少类似的错误发生。不断循环往复，直到犯错误的次数减少到很低的程度。

关于Boosting的两个核心问题

　　1）在每一轮如何改变训练数据的权值或概率分布？

　　通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

　　2）通过什么方式来组合弱分类器？

　　通过加法模型将弱分类器进行线性组合，比如：

　　AdaBoost算法　　GBDT算法

Boosting算法代表--Adaboost(Adaptive Boosting)

刚开始训练时对每一个训练例赋相等的权重，然后用该算法对训练集训练t轮，每次训练后，对训练失败的训练例赋以较大的权重，也就是让学习算法在每次学习以后更注意学错的样本，从而得到多个预测函数。通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。

Gradient Boosting

Gradient Boosting是Boosting中的一大类算法，其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有模型中

AdaBoost + 决策树 = 提升树

Gradient Boosting + 决策树 = GBDT

【本文地址】

公司简介

联系我们