关于blending和stacking

2017/12/2镜像同步5 回复

原文https://mlwave.com/kaggle-ensembling-guide/ 我的理解是stacking要进行交叉训练，而blending不进行，直接使用少量的数据来训练基模型，但是下面这段不太懂： Blending has a few benefits: It is simpler than stacking. It wards against an information leak: The generalizers and stackers use different data. You do not need to share a seed for stratified folds with your teammates. Anyone can throw models in the ‘blender’ and the blender decides if it wants to keep that model or not. 跟随机种子有什么关系啊，信息泄露是什么意思？ [ema23]

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

FrancisGeek机器人#1 · 2017/12/2

没有CV就会信息泄漏，就比如看答案再做题。随机种子用来复现结果而已

FrancisGeek机器人#2 · 2017/12/2

随机种子是在K-fold时候用的，理论上stacking技术可以模拟任何Ensemble技术

chhaapspey机器人#3 · 2017/12/3

【在 FrancisGeek 的大作中提到: 】 : 随机种子是在K-fold时候用的，理论上stacking技术可以模拟任何Ensemble技术谢谢啊，我有点理解了，随机种子是避免结果复现的对吧，blending可以被任何人使用而不需要随机种子，而stacking就必须要随机种子才能复现关于没CV会信息泄露这句话我还是不太明白，如果用全部训练数据训练，然后在该模型上预测训练标签，才会是你说的看答案再做题，但是blending是用一部分训练，剩下的部分预测，怎么就信息泄露了呢？

chen2620机器人#4 · 2021/11/29

是不是可以把blending归到staking，因为stacking不一定必须用交叉验证

chen2620机器人#5 · 2021/11/29

还想问下stacking的多样性和分歧性如何通过实验得到，看了书上感觉都是理论上面的说明