返回信息流1.数据预处理时填补缺失值,干掉重复值当然是老生常谈。不过在这个阶段是否有必要大量的绘图进行可视化?(有的资料提到通过这个手段可以删除离群点,并且找到一些关于特征的insight)
2.进行特征工程是否有什么技巧可言?也就是除了拍脑门靠着直觉猜想之外是否有什么别的很好的习惯或者套路吗?
3.关于特征的选择和降维,资料介绍了大量的方法,但是我们一般到底用哪种评估方法?全部都试一遍吗?并且这部分工作应该在比赛哪一步进行?(有的资料是在交叉验证的前面,但是又有资料认为这样会增加模型的偏见,应该在交叉验证的内部。也就是跟调参一样,作为需要比较和优化的一部分)
4.对于特征选择,我们应该保留多少特征?一般特征选择的方法是对特征的重要性进行排序,但是到底保留多少特征合适是也要在交叉验证中试出来吗?
问题有点多……但是作为一个大三学生平时没啥人能问诶,希望路过的大佬可怜可怜我[ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #29107同步于 2018/4/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]数据预处理与特征工程
Ratio
2018/4/15镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 Ratio 的大作中提到: 】
: 1.数据预处理时填补缺失值,干掉重复值当然是老生常谈。不过在这个阶段是否有必要大量的绘图进行可视化?(有的资料提到通过这个手段可以删除离群点,并且找到一些关于特征的insight)
: 2.进行特征工程是否有什么技巧可言?也就是除了拍脑门靠着直觉猜想之外是否有什么别的很好的习惯或者套路吗?
: 3.关于特征的选择和降维,资料介绍了大量的方法,但是我们一般到底用哪种评估方法?全部都试一遍吗?并且这部分工作应该在比赛哪一步进行?(有的资料是在交叉验证的前面,但是又有资料认为这样会增加模型的偏见,应该在交叉验证的内部。也就是跟调参一样,作为需要比较和优化的一部分)
: ...................
楼主说的这些都是理论上的办法吧,不妨多打几个比赛,就什么都明白了
要是有有经验的前辈愿意带,倒是当然跟着来一场啥都会了,自己完全瞎试怕是也不太靠谱。。。
【 在 dxy1 的大作中提到: 】
【 在 Ratio 的大作中提到: 】
: 1.数据...[em4][em2]
自己学呗,跟一起比赛的交流交流,大家都是这么过来的
【 在 Ratio (夜航船) 的大作中提到: 】
: 要是有有经验的前辈愿意带,倒是当然跟着来一场啥都会了,自己完全瞎试怕是也不太靠谱。。。
通过『我邮2.0』发布