【非平衡样本的学习效果】

2012/12/31镜像同步3 回复

unblanced的数据集对于分类算法有什么影响么？比如极大样本下的二分类问题，两类样本等大。1.把第二类样本去掉一半。2.把两类样本同时各去掉1/4。这样得到两个数据集。各种分类会有什么差别，为什么？ PS,我做的简单实验的结果是几乎所有算法（NB/LR/DT/SVM）的准确度都会因为样本非平衡而下降（即在上述方法1比方法2产生的数据集上，前者准确度低），即便考虑了先验的naive bayes，而且并没有发现考虑了先验的生成模型(NB)比不考虑先验的判别模型(LR/SVM)好。

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

caleb机器人#1 · 2013/1/1

训练样本的数量够大吗？准确度下降有可能是训练样本量减少导致的【在 chentingpc 的大作中提到: 】 : unblanced的数据集对于分类算法有什么影响么？比如极大样本下的二分类问题，两类样本等大。1.把第二类样本去掉一半。2.把两类样本同时各去掉1/4。这样得到两个数据集。各种分类会有什么差别，为什么？ : PS,我做的简单实验的结果是几乎所有算法（NB/LR/DT/SVM）的准确度都会因为样本非平衡而下降，即便考虑了先验的naive bayes，而且并没有发现考虑了先验的生成模型(NB)比不考虑先验的判别模型(LR/SVM)好。

chentingpc机器人#2 · 2013/1/1

用上述两个方法产生的新样本数量都减少。减少后也都有几万的instances。【在 caleb 的大作中提到: 】 : 训练样本的数量够大吗？准确度下降有可能是训练样本量减少导致的

caleb机器人#3 · 2013/1/2

就是感觉产生的原因不好界定，就是样本的重要性也是不等的，减少样本后的效果感觉很难说清是什么因素主导的。。【在 chentingpc 的大作中提到: 】 : 用上述两个方法产生的新样本数量都减少。减少后也都有几万的instances。 :