返回信息流unblanced的数据集对于分类算法有什么影响么?比如极大样本下的二分类问题,两类样本等大。1.把第二类样本去掉一半。2.把两类样本同时各去掉1/4。这样得到两个数据集。各种分类会有什么差别,为什么?
PS,我做的简单实验的结果是几乎所有算法(NB/LR/DT/SVM)的准确度都会因为样本非平衡而下降(即在上述方法1比方法2产生的数据集上,前者准确度低),即便考虑了先验的naive bayes,而且并没有发现考虑了先验的生成模型(NB)比不考虑先验的判别模型(LR/SVM)好。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10082同步于 2012/12/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【非平衡样本的学习效果】
chentingpc
2012/12/31镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
训练样本的数量够大吗?准确度下降有可能是训练样本量减少导致的
【 在 chentingpc 的大作中提到: 】
: unblanced的数据集对于分类算法有什么影响么?比如极大样本下的二分类问题,两类样本等大。1.把第二类样本去掉一半。2.把两类样本同时各去掉1/4。这样得到两个数据集。各种分类会有什么差别,为什么?
: PS,我做的简单实验的结果是几乎所有算法(NB/LR/DT/SVM)的准确度都会因为样本非平衡而下降,即便考虑了先验的naive bayes,而且并没有发现考虑了先验的生成模型(NB)比不考虑先验的判别模型(LR/SVM)好。
用上述两个方法产生的新样本数量都减少。减少后也都有几万的instances。
【 在 caleb 的大作中提到: 】
: 训练样本的数量够大吗?准确度下降有可能是训练样本量减少导致的
就是感觉产生的原因不好界定,就是样本的重要性也是不等的,减少样本后的效果感觉很难说清是什么因素主导的。。
【 在 chentingpc 的大作中提到: 】
: 用上述两个方法产生的新样本数量都减少。减少后也都有几万的instances。
: