返回信息流如题,当出现这种问题的时候我们一般采用什么样的策略?此外,除了可视化之外有什么别的检查数据不均衡的手段吗?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #29772同步于 2018/5/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
比赛中train/test 分布不一致
Ratio
2018/5/30镜像同步19 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
不好意思。。。我前一阵子换了个手机把自己发的帖子给忘了。我想问的是train和test不是同分布。比如在某个数据集上交叉验证的分数和test分数区别比较大,该怎么处理~
【 在 viredery ([莫蒂团] Viredery) 的大作中提到: 】
: 哈?train/validation分布不均衡?多换几次种子抽样下?
看看metrics也就是评分标准,如果你数据集的划分相比metrics来说算是合理的话,那可以不管,只要cv和test是同增同减就好。不过,我遇到过一次分布差别特别大的,而评分标准是log loss而不是auc之类的,所以得处理下,我写的总结https://www.cnblogs.com/viredery/p/cross_entropy.html
【 在 Ratio 的大作中提到: 】
: 不好意思。。。我前一阵子换了个手机把自己发的帖子给忘了。我想问的是train和test不是同分布。比如在某个数据集上交叉验证的分数和test分数区别比较大,该怎么处理~
学长你好,博客拜读,很有收获[ema28]这里想追问下:
①学长你所说的"数据集划分相比metrics"合理的意思是不是就是对于f1-score,auc这种指标来说,不需在意正负样本比例问题?
②这里来看学长的博客是针对输出正负样本比例不一样的应对方法,如果P(x)都有可能不同要怎么办呢[ema23]
【 在 viredery ([莫蒂团] Viredery) 的大作中提到: 】
: 看看metrics也就是评分标准,如果你数据集的划分相比metrics来说算是合理的话,那可以不管,只要cv和test是同增同减就好。不过,我遇到过一次分布差别...
1、
auc这个指标更像排序,不需要在意。
f1-score也要考虑正负样本,毕竟需要设置阈值
2、
P(x)不同,则不具备学习可行性
【 在 Ratio 的大作中提到: 】
: 学长你好,博客拜读,很有收获这里想追问下:
: ①学长你所说的"数据集划分相比metrics"合理的意思是不是就是对于f1-score,auc这种指标来说,不需在意正负样本比例问题?
: ②这里来看学长的博客是针对输出正负样本比例不一样的应对方法,如果P(x)都有可能不同要怎么办呢
谢谢学长!!!!
所以总的来说,就是对于交叉熵函数这类在意正负样本分布的指标,我们可以考虑对train集的正负样本分别过采样。过采样的具体比例根据学长那篇博客推导出来的公式计算。这样就可以了对吗?
啊我从没做过过采样和欠采样。这个权重是直接映射到log loss上的,通俗说对数量少的类别,分类错误的惩罚将大于数量多的类别分类错误的惩罚。。。
不过花书上有一段提到,好像在工业界,数据量极其大的情况下,不一定所有数据都要用,所以我猜可以每一次epoch都做下欠采样?
【 在 Ratio 的大作中提到: 】
: 谢谢学长!!!!
: 所以总的来说,就是对于交叉熵函数这类在意正负样本分布的指标,我们可以考虑对train集的正负样本分别过采样。过采样的具体比例根据学长那篇博客推导出来的公式计算。这样就可以了对吗?