返回信息流我的一篇文章里,用decision tree来train了一个classifier
reviewer的意见里,考虑到decision tree tend to overfit,建议我们增加一组random forest这样的ensemble model的实验
我的实验结果里,random forest的结果大大好于decision tree,即便我已经将number of tree降低到只有几颗
我想问的是,既然decision tree容易过度拟合,那么从概念上该怎么解释random forest精度非常高的结果?纯粹是因为算法精度,还是由于数据集的某些特性,或者是其他什么原因?
由于并非做data mining方向,只是应用classifier来做evaluation,相关概念并不非常纯熟,感谢大家解答!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #21192同步于 2016/10/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求问:decision tree和random forest的实验结果问题
cisety
2016/10/2镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
Decision tree 顾名思义它就是一棵树, Random Forest是一个森林,它有很多的数,它是多棵树投票的结果, 比如经常用的(500 or 1000 trees)。
Decision tree比较大的一个问题是当问题的维度太高,它就容易犯错, 而RF的好处是只要大多数tree不出错,voting出来的结果就是对的。。
建议你google, 这种问题google一下你能找到各种各样的说法, 中和一下。。。
【 在 cisety 的大作中提到: 】
: 我的一篇文章里,用decision tree来train了一个classifier
: reviewer的意见里,考虑到decision tree tend to overfit,建议我们增加一组random forest这样的ensemble model的实验
: 我的实验结果里,random forest的结果大大好于decision tree,即便我已经将number of tree降低到只有几颗
: ...................
可以去看看Bias–variance tradeoff。决策树本身的bias很低,但是variance很高,表现出来就是在训练集上拟合的很好,但是泛化到测试集上的效果很差。多个决策树投票可以有效降低variance,提高泛化能力。举一个可能不太恰当的例子吧,把单个树想成一个随机变量,它的方差是var,那n个树的均值的方差就是var/n
多谢大家的回复~可能我问题描述的不够清楚,我并非问的是random forest的基本原理
不过大家的回复还是收益颇多,让我有了一些如何陈述的思路:)
基本上,我需要在文章中说的就是,random forest避免了特定训练集的过拟合,得到了精确度更高同时在原理上更加泛化的模型。但具体到我们的工作,decision tree也给出了足够精度的结果,证明了更加简单的decision tree并不会极端地过拟合,能够比较好的适应我们propose的feature collection
这样总结是否有谬误?