集成模型之随机森林

2024-06-28 18:06:25| 来源: 网络整理| 查看: 265

一种最实用而且最有效的模型 - ”集成模型(ensemble model)” 对于几乎所有的分类问题(除了图像识别，因为对于图像识别问题，目前深度学习是标配)，集成模型成为了我们的首选。

比如构建一个评分卡系统，业界的标配是GBDT或者XGBoost等集成模型，主要因为它的效果确实好，而且稳定。还有一点是这些模型的可解释性也很好，不像深度学习模型就像个黑盒子。

可解释性对于工业界应用来说尤其重要。比如一个模型出错了，我们希望第一时间能够找出问题的根源。但如果模型的可解释性比较差，则很难及时把问题定位出来。

举个例子，金融类的应用是直接跟金钱挂钩的，一旦出了问题之后后果不堪设想。所以模型上线之前需要做大量的测试，而且提前要清楚地了解模型里的每个细节以及可能出错之后带来的后果。

那为什么集成模型的可解释性好呢？这个其实不难理解，因为随机森林或者提升树模型其实是基于决策树的，而且我们知道决策树模型的可解释性本来就很好。集成模型可以简单理解成决策树的集合！

除了工业界应用，在各类数据竞赛上，集成模型也扮演着极其重要的角色。对于大部分的竞赛，使用集成模型是通向第一名的最快的捷径。当然，也离不开特征工程的部分。

集成模型的思想：多个人一起决策要优于一个人单干。当然也有可能存在一些特别牛逼的人要远远胜于其他所有人的智慧之和，但毕竟是特例。至少多听取不同的建议会让自己少犯一些愚蠢的错误。

那如何去构建一个集成模型呢？有两种不同的方法，分别是Bagging和Boosting。

agging和Boosting是集成模型的两大类，拥有不一样的训练方式，而且有着很大的区别。Bagging里最经典的就是随机森林模型。对于Boosting，目前使用最多的包括GBDT, XGBoost

【本文地址】

公司简介

联系我们

今日新闻