返回信息流RT,面试问题,如何回答最贴切呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24302同步于 2017/6/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】理论解释为什么一般正负样本均衡训练效果更好(可以结
Hu690988268
2017/6/3镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
拙见:
对正负样本的比例没有先验的时候,设计loss时对正负样本的损失通常都是平衡的,因此若是样本比例不平衡,整个模型向着loss最小的方向优化,就会“容忍”对样本较少一方的错判
学习学习
【 在 chenguangqi 的大作中提到: 】
: 拙见:
: 对正负样本的比例没有先验的时候,设计loss时对正负样本的损失通常都是平衡的,因此若是样本比例不平衡,整个模型向着loss最小的方向优化,就会“容忍”对样本较少一方的错判
:
发自「贵邮」
半瓶水瞎说:
如果是最大似然的模型,样本不平衡,训练时会增大方差....
直观上理解就是99%正确,1%错误,只要预测正确准确率就是就是99%了。这时候就需要准确率,召回率,f-score这些指标了
这个问题是我上学期自己瞎学机器学习的时候非常困惑的问题。。。到现在也不知道答案。。。。
但是感觉是不是和loss函数或者某种模型假设了样本符合某种分布(正态)有关?
正解[ema10]
【 在 chenguangqi (北门吹牛中) 的大作中提到: 】
: 拙见:
: 对正负样本的比例没有先验的时候,设计loss时对正负样本的损失通常都是平衡的,因此若是样本比例不平衡,整个模型向着loss最小的方向优化,就会“容忍”对样本较少一方的错判