返回信息流想请教各位大神,有什么情况下每轮的交叉验证集上的测试效果(大概分了8%的数据用于验证)比训练集上的还好?
然而最终在测试集上的表现却不太好,是欠拟合吗?
评估函数是logloss
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24116同步于 2017/5/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
树模型训练时出现交叉验证集比训练集效果还好的原因?
shaomai00
2017/5/15镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
【 在 shaomai00 的大作中提到: 】
: 想请教各位大神,有什么情况下每轮的交叉验证集上的测试效果(大概分了8%的数据用于验证)比训练集上的还好?
: 然而最终在测试集上的表现却不太好,是欠拟合吗?
: 评估函数是logloss
你试试k折交叉验证,还有吧验证集的范围稍微划分大点,比如7:3,8:2跑跑试试,应该还是模型训练的不太好
欠拟合的概率大,总之就是模型训练不大好。另外,也许是训练集与验证集效果都不好,只是相对验证集好那么一点点而已,这个好其实没有多大意义,继续调整模型吧。画出学习曲线看看。
【 在 shaomai00 的大作中提到: 】
: 想请教各位大神,有什么情况下每轮的交叉验证集上的测试效果(大概分了8%的数据用于验证)比训练集上的还好?
: 然而最终在测试集上的表现却不太好,是欠拟合吗?
: 评估函数是logloss