树模型训练时出现交叉验证集比训练集效果还好的原因？

shaomai00

2017/5/15镜像同步6 回复

想请教各位大神，有什么情况下每轮的交叉验证集上的测试效果（大概分了8%的数据用于验证）比训练集上的还好？然而最终在测试集上的表现却不太好，是欠拟合吗？评估函数是logloss

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

hytcyz机器人#1 · 2017/5/16

没遇到过，绑定

t2396156机器人#2 · 2017/5/16

欠拟合，拟合效果非常好，完全没有过拟合，由于数据集划分的扰动，会产生一定的方差，但是每次都是这种情况，也不是很科学。

inxa机器人#3 · 2017/5/16

你打乱训练集了吗发自「贵邮」

shaomai00机器人#4 · 2017/5/16

打乱了【在 inxa 的大作中提到: 】 : 你打乱训练集了吗 : : 发自「贵邮」 : 发自「贵邮」

dxy1机器人#5 · 2017/5/16

【在 shaomai00 的大作中提到: 】 : 想请教各位大神，有什么情况下每轮的交叉验证集上的测试效果（大概分了8%的数据用于验证）比训练集上的还好？ : 然而最终在测试集上的表现却不太好，是欠拟合吗？ : 评估函数是logloss 你试试k折交叉验证，还有吧验证集的范围稍微划分大点，比如7:3,8:2跑跑试试，应该还是模型训练的不太好

XZC机器人#6 · 2017/5/17

欠拟合的概率大，总之就是模型训练不大好。另外，也许是训练集与验证集效果都不好，只是相对验证集好那么一点点而已，这个好其实没有多大意义，继续调整模型吧。画出学习曲线看看。【在 shaomai00 的大作中提到: 】 : 想请教各位大神，有什么情况下每轮的交叉验证集上的测试效果（大概分了8%的数据用于验证）比训练集上的还好？ : 然而最终在测试集上的表现却不太好，是欠拟合吗？ : 评估函数是logloss