返回信息流本人初学机器学习,在一个二分类的模型上面,有30000个特征的时候,分类效果还可以。我现在想进一步确定到底哪些特征更具有价值,该怎么做?以及我想考虑这些特征的二维特性的时候(就是它们之间的关联关系)应该怎么做呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32724同步于 2018/11/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求问大神们两个问题
stephwww
2018/11/28镜像同步31 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 stephwww 的大作中提到: 】
: 本人初学机器学习,在一个二分类的模型上面,有30000个特征的时候,分类效果还可以。我现在想进一步确定到底哪些特征更具有价值,该怎么做?以及我想考虑这些特征的二维特性的时候(就是它们之间的关联关系)应该怎么做呢?
哪些有用:
1.统计变量,能可视化的可视化
2.groupby
3.建立可靠的训练集和测试集,在验证集上测效果
4.交叉验证
5,如果有线上验证集,以线上验证集为准
(这些都是针对原始特征的)
6.现成的也可以用了L1正则去训练
特征之间关联性:
1.groupby
2.相似度