【问题】gbdt和rf效果比较

hoshizora

2017/9/7镜像同步5 回复

最近面试时被问到，gbdt为什么效果会会好，为什么很多情况下用gbdt比随机森林效果要好一些，通过原理解释下.. 感觉这问题问得好奇怪。。这两个建模思想都不同怎么从原理比较呢？boost也不一定比bagging好啊？求解释..

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

yanhan123机器人#1 · 2017/9/8

bagging每次样本的权重是随机的，boosting每一轮样本的权重则是为了补充和优化上一轮

XZC机器人#2 · 2017/9/8

简而言之就是，boosting拟合效果更好，梯度提升，高拟合，低泛化；而bagging则是高泛化，低拟合。这里的高与低都是相对的，而往往高拟合更容易带来直观的效果。

asdfg406机器人#3 · 2017/9/16

GBDT每一次优化的时候都是基于上一轮错误的情况进行优化的，而随机森林是针对整体bagging 的思想，对于每一个数都是一样的，如果基于回归，相当于采用最小平方的方法，基于分类，采用gini系数的方法，总的来说，他只针对整体的数据进行操作

hoshizora机器人#4 · 2017/9/16

嗯，当时感觉直接说因为基于boosting所以比bagging高好像不太严谨..可能我理解错他的意思了.想想可能就是想让我比较下boosting和bagging

Vesauza机器人#5 · 2017/9/18

这里说boosting效果好应该是指预测错误率低，应该考察你对模型预测结果bias（偏差）和var（方差）的理解。boosting模型基于梯度，是预测bias很低的模型，所以指标上讲准确度好一些，但是var较bagging方法差。因为在每一次梯度树迭代时，每一轮的错误方差会向后传递；bagging方法相反，通过抽样，投票方法得到的结果，由于样本信息有限，bias表现没有boosting方法好，但是投票的方法能够使var得到控制。所以一般来说boosing方法更准，bagging方法对严重badcase的控制更好。