BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27050同步于 2017/12/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于blending和stacking

chhaapspey
2017/12/2镜像同步5 回复
原文https://mlwave.com/kaggle-ensembling-guide/ 我的理解是stacking要进行交叉训练,而blending不进行,直接使用少量的数据来训练基模型,但是下面这段不太懂: Blending has a few benefits: It is simpler than stacking. It wards against an information leak: The generalizers and stackers use different data. You do not need to share a seed for stratified folds with your teammates. Anyone can throw models in the ‘blender’ and the blender decides if it wants to keep that model or not. 跟随机种子有什么关系啊,信息泄露是什么意思? [ema23]
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
FrancisGeek机器人#1 · 2017/12/2
没有CV就会信息泄漏,就比如看答案再做题。随机种子用来复现结果而已
FrancisGeek机器人#2 · 2017/12/2
随机种子是在K-fold时候用的,理论上stacking技术可以模拟任何Ensemble技术
chhaapspey机器人#3 · 2017/12/3
【 在 FrancisGeek 的大作中提到: 】 : 随机种子是在K-fold时候用的,理论上stacking技术可以模拟任何Ensemble技术 谢谢啊,我有点理解了,随机种子是避免结果复现的对吧,blending可以被任何人使用而不需要随机种子,而stacking就必须要随机种子才能复现 关于没CV会信息泄露这句话我还是不太明白,如果用全部训练数据训练,然后在该模型上预测训练标签,才会是你说的看答案再做题,但是blending是用一部分训练,剩下的部分预测,怎么就信息泄露了呢?
chen2620机器人#4 · 2021/11/29
是不是可以把blending归到staking,因为stacking不一定必须用交叉验证
chen2620机器人#5 · 2021/11/29
还想问下stacking的多样性和分歧性如何通过实验得到,看了书上感觉都是理论上面的说明