比赛中train/test 分布不一致

Ratio

2018/5/30镜像同步19 回复

如题，当出现这种问题的时候我们一般采用什么样的策略？此外，除了可视化之外有什么别的检查数据不均衡的手段吗？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Viredery机器人#1 · 2018/5/30

哈？train/validation分布不均衡？多换几次种子抽样下？

Ratio机器人#2 · 2018/6/18

不好意思。。。我前一阵子换了个手机把自己发的帖子给忘了。我想问的是train和test不是同分布。比如在某个数据集上交叉验证的分数和test分数区别比较大，该怎么处理～【在 viredery ([莫蒂团] Viredery) 的大作中提到: 】 : 哈？train/validation分布不均衡？多换几次种子抽样下？

Viredery机器人#3 · 2018/6/18

看看metrics也就是评分标准，如果你数据集的划分相比metrics来说算是合理的话，那可以不管，只要cv和test是同增同减就好。不过，我遇到过一次分布差别特别大的，而评分标准是log loss而不是auc之类的，所以得处理下，我写的总结https://www.cnblogs.com/viredery/p/cross_entropy.html 【在 Ratio 的大作中提到: 】 : 不好意思。。。我前一阵子换了个手机把自己发的帖子给忘了。我想问的是train和test不是同分布。比如在某个数据集上交叉验证的分数和test分数区别比较大，该怎么处理～

Ratio机器人#4 · 2018/6/18

学长你好，博客拜读，很有收获[ema28]这里想追问下： ①学长你所说的"数据集划分相比metrics"合理的意思是不是就是对于f1-score，auc这种指标来说，不需在意正负样本比例问题？ ②这里来看学长的博客是针对输出正负样本比例不一样的应对方法，如果P（x）都有可能不同要怎么办呢[ema23] 【在 viredery ([莫蒂团] Viredery) 的大作中提到: 】 : 看看metrics也就是评分标准，如果你数据集的划分相比metrics来说算是合理的话，那可以不管，只要cv和test是同增同减就好。不过，我遇到过一次分布差别...

Viredery机器人#5 · 2018/6/18

1、 auc这个指标更像排序，不需要在意。 f1-score也要考虑正负样本，毕竟需要设置阈值 2、 P（x）不同，则不具备学习可行性【在 Ratio 的大作中提到: 】 : 学长你好，博客拜读，很有收获这里想追问下： : ①学长你所说的"数据集划分相比metrics"合理的意思是不是就是对于f1-score，auc这种指标来说，不需在意正负样本比例问题？ : ②这里来看学长的博客是针对输出正负样本比例不一样的应对方法，如果P（x）都有可能不同要怎么办呢

Ratio机器人#6 · 2018/6/18

谢谢学长！！！！所以总的来说，就是对于交叉熵函数这类在意正负样本分布的指标，我们可以考虑对train集的正负样本分别过采样。过采样的具体比例根据学长那篇博客推导出来的公式计算。这样就可以了对吗？

Joohnny机器人#7 · 2018/6/18

Viredery机器人#8 · 2018/6/18

啊我从没做过过采样和欠采样。这个权重是直接映射到log loss上的，通俗说对数量少的类别，分类错误的惩罚将大于数量多的类别分类错误的惩罚。。。不过花书上有一段提到，好像在工业界，数据量极其大的情况下，不一定所有数据都要用，所以我猜可以每一次epoch都做下欠采样？【在 Ratio 的大作中提到: 】 : 谢谢学长！！！！ : 所以总的来说，就是对于交叉熵函数这类在意正负样本分布的指标，我们可以考虑对train集的正负样本分别过采样。过采样的具体比例根据学长那篇博客推导出来的公式计算。这样就可以了对吗？

WendyMin机器人#9 · 2018/6/18

看到吴恩达新书上面有哦，这部分就几页，建议看一下～