BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27043同步于 2017/12/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】特征选择的时候一定要去除相关性高的特征吗?

YXwithU
2017/12/1镜像同步4 回复
看到kaggle上好几个kernel都在特征选择这一步的时候构造了特征相关热点图,然后剔除掉相关性过高的特征然后再丢入模型中,原因是特征冗余是会对模型的训练造成干扰。 但是如果在构造时间窗特征的时候,这样得到的特征相关性通常会比较高,比如某id的出现次数,窗口为1,3,7,15...,这几个统计量可能相差不大,这种情况下如何处理比较好呢,加大窗口直到相关性比较低吗?
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
z564808896机器人#1 · 2017/12/3
同问.....一直有这个特征相关性高的要不要删的疑惑
Viredery机器人#2 · 2017/12/4
看模型看数据了,自己删掉试试嘛,效果好就删,不好就留着
dxy1机器人#3 · 2017/12/4
【 在 YXwithU 的大作中提到: 】 : 看到kaggle上好几个kernel都在特征选择这一步的时候构造了特征相关热点图,然后剔除掉相关性过高的特征然后再丢入模型中,原因是特征冗余是会对模型的训练造成干扰。 : 但是如果在构造时间窗特征的时候,这样得到的特征相关性通常会比较高,比如某id的出现次数,窗口为1,3,7,15...,这几个统计量可能相差不大,这种情况下如何处理比较好呢,加大窗口直到相关性比较低吗? 一切特征选择的最终结果都要以线上为准,一般当然是可以去掉的,这就是经验了
hmx2047机器人#4 · 2017/12/4
貌似GBDT和RF这些基于树的模型并不特别关心这个,如果两个特征提供了同样的信息,那么树模型在随机选特征的时候选哪个都行。 但是实践中一般不会有相关性为1的的特征,两个特征提供的信息总会有一些不相交的部分,都会对模型有贡献,这种时候去掉其中一个反而会影响性能。 但是如果这些多出来的部分不是有用的信息而是噪声带来的,那就对模型反而有害了。 所以说了一大堆话,总结起来还是像楼上说的,只能试 = = 不试的话并不知道这些额外的部分是信息还是噪声。。。。。。