训练集是否需要去重？

2015/5/12镜像同步7 回复

想请教诸位大神，机器学习用训练集训练的时候需不需要对相同特征相同分类的数据去重？还是说尊重原始数据的分布。我是考虑到如果用去重之后的数据使用交叉验证算法，例如5折交叉。80%的数据训练，20%的数据测试，那么这20%的数据不就是相当于没有训练过的数据么，这样做的准确率会很低，不到60%。但是如果不去重又考虑到训练数据量太大过多的重复数据会影响学习效果……

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

zl9394机器人#1 · 2015/5/14

见过的貌似都得先去重。

matineeG机器人#2 · 2015/5/15

个人认为1.要看你的类是否平衡； 2.要看你用什么算法。

karon1988机器人#3 · 2015/5/17

表示没有看懂什么叫“那么这20%的数据不就是相当于没有训练过的数据么”

matineeG机器人#4 · 2015/5/18

他的意思是由于去重后数据之间没有相同的这20%的测试集在训练集中也找不到相同的数据。【在 karon1988 的大作中提到: 】 : 表示没有看懂什么叫“那么这20%的数据不就是相当于没有训练过的数据么”

karon1988机器人#5 · 2015/5/19

好吧。。。 1.看他怎么“去重”了。比如做分类时，分类和去重都有一个匹配或者求相似的过程，如果他分类和去重使用的一模一样的标准，自然会导致数据集中所有属于同一类的数据都被去重，只留下一项。那必然出现这个问题。所以去重只应该去掉“太像”的数据，不能太过。 2.其实有好多论文讨论过类似给训练样本去重的问题。比如 Are all training examples equally valuable?和Dissimilarity-based Sparse Subset Selection 3.一些基于统计的问题应该是不能去重的。【在 matineeG 的大作中提到: 】 : 他的意思是由于去重后数据之间没有相同的这20%的测试集在训练集中也找不到相同的数据。

helloworld00机器人#6 · 2016/11/30

遇到同样的问题，但是测试数据不就应该在训练集中不出现吗？

LayneH机器人#7 · 2016/11/30

测试数据确实不应该出现在训练中. LZ说的应该是验证集(validation set),一般是从训练集中分一部分出去. 选定模型参数之后可以再把验证集数据放回训练集一起训练. 【在 helloworld00 的大作中提到: 】 : 遇到同样的问题，但是测试数据不就应该在训练集中不出现吗？