返回信息流最近在实现cart分类树算法,有一点小问题想请教大家:
对于一个离散CART分类树,当对每一个属性进行分割计算gini系数时,当属性里的元素大于等于3个,如何进行分割?举个栗子,属性A里包含元素{1,2,3,4},对这个集合超分类成{1,(2,3,4)}、{2,(1,3,4)}、{3,(1,2,4)}、{4,(1,2,3)}四种方案还是{1,(2,3,4)}、{2,(1,3,4)}、{3,(1,2,4)}、{4,(1,2,3)}、{(1,2),(3,4)}、{(1,3),(2,4)}、{(1,4),(2,3)}七种方案。
并且,新生成的集合是否要加入属性集再进行分类,即(2,3,4)、(1,3,4)等这些集合是否要再加入属性集,再划分。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #22231同步于 2016/12/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】请教一个CART的问题
hmy
2016/12/17镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
CART是一个二叉的分类数,decision stump选择的分类特征必须互斥切完备。也就是说,对于某个特征,特征值有{1,2,3,4}这四种可能,decision stump可能选择的分割有四种(主要依据是是或否,例如是{1},和不是{1})。最终decision stump选择的特征是所有特征的所有可能值的gini指数的最小值。
在后续的特征选择中,只要满足互斥且完备的特性,都可以作为分类特征。例如第一次选择了{1},那么以后依然可以用{2,3,4}中的属性做分类。
具体检查互斥且完备的方法可以是:考察从根节点出发的每一条到叶子节点的路,路上的特征是否重复或包含。
发自「贵邮」