返回信息流最近面试时被问到,gbdt为什么效果会会好,为什么很多情况下用gbdt比随机森林效果要好一些,通过原理解释下..
感觉这问题问得好奇怪。。这两个建模思想都不同怎么从原理比较呢?boost也不一定比bagging好啊?求解释..
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #25648同步于 2017/9/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】gbdt和rf效果比较
hoshizora
2017/9/7镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
简而言之就是,boosting拟合效果更好,梯度提升,高拟合,低泛化;而bagging则是高泛化,低拟合。这里的高与低都是相对的,而往往高拟合更容易带来直观的效果。
GBDT每一次优化的时候都是基于上一轮错误的情况进行优化的,而随机森林是针对整体bagging 的思想,对于每一个数都是一样的,如果基于回归,相当于采用最小平方的方法,基于分类,采用gini系数的方法,总的来说,他只针对整体的数据进行操作
嗯,当时感觉直接说因为基于boosting所以比bagging高好像不太严谨..可能我理解错他的意思了.想想可能就是想让我比较下boosting和bagging
这里说boosting效果好应该是指预测错误率低,应该考察你对模型预测结果bias(偏差)和var(方差)的理解。boosting模型基于梯度,是预测bias很低的模型,所以指标上讲准确度好一些,但是var较bagging方法差。因为在每一次梯度树迭代时,每一轮的错误方差会向后传递;bagging方法相反,通过抽样,投票方法得到的结果,由于样本信息有限,bias表现没有boosting方法好,但是投票的方法能够使var得到控制。所以一般来说boosing方法更准,bagging方法对严重badcase的控制更好。