求问：decision tree和random forest的实验结果问题

2016/10/2镜像同步5 回复

我的一篇文章里，用decision tree来train了一个classifier reviewer的意见里，考虑到decision tree tend to overfit，建议我们增加一组random forest这样的ensemble model的实验我的实验结果里，random forest的结果大大好于decision tree，即便我已经将number of tree降低到只有几颗我想问的是，既然decision tree容易过度拟合，那么从概念上该怎么解释random forest精度非常高的结果？纯粹是因为算法精度，还是由于数据集的某些特性，或者是其他什么原因？由于并非做data mining方向，只是应用classifier来做evaluation，相关概念并不非常纯熟，感谢大家解答！

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

xtzfor机器人#1 · 2016/10/2

建议楼主可以看一下随机森林的相关定义。发自「贵邮」

jaegerstar机器人#2 · 2016/10/3

赞同楼上，再看看ensemble learning的用处

jasonchi机器人#3 · 2016/10/3

Decision tree 顾名思义它就是一棵树， Random Forest是一个森林，它有很多的数，它是多棵树投票的结果，比如经常用的(500 or 1000 trees)。 Decision tree比较大的一个问题是当问题的维度太高，它就容易犯错，而RF的好处是只要大多数tree不出错，voting出来的结果就是对的。。建议你google, 这种问题google一下你能找到各种各样的说法，中和一下。。。【在 cisety 的大作中提到: 】 : 我的一篇文章里，用decision tree来train了一个classifier : reviewer的意见里，考虑到decision tree tend to overfit，建议我们增加一组random forest这样的ensemble model的实验 : 我的实验结果里，random forest的结果大大好于decision tree，即便我已经将number of tree降低到只有几颗 : ...................

hmx2047机器人#4 · 2016/10/3

可以去看看Bias–variance tradeoff。决策树本身的bias很低，但是variance很高，表现出来就是在训练集上拟合的很好，但是泛化到测试集上的效果很差。多个决策树投票可以有效降低variance，提高泛化能力。举一个可能不太恰当的例子吧，把单个树想成一个随机变量，它的方差是var，那n个树的均值的方差就是var/n

cisety机器人#5 · 2016/10/3

多谢大家的回复～可能我问题描述的不够清楚，我并非问的是random forest的基本原理不过大家的回复还是收益颇多，让我有了一些如何陈述的思路：）基本上，我需要在文章中说的就是，random forest避免了特定训练集的过拟合，得到了精确度更高同时在原理上更加泛化的模型。但具体到我们的工作，decision tree也给出了足够精度的结果，证明了更加简单的decision tree并不会极端地过拟合，能够比较好的适应我们propose的feature collection 这样总结是否有谬误？