返回信息流原文https://mlwave.com/kaggle-ensembling-guide/
我的理解是stacking要进行交叉训练,而blending不进行,直接使用少量的数据来训练基模型,但是下面这段不太懂:
Blending has a few benefits:
It is simpler than stacking.
It wards against an information leak: The generalizers and stackers use different data.
You do not need to share a seed for stratified folds with your teammates. Anyone can throw models in the ‘blender’ and the blender decides if it wants to keep that model or not.
跟随机种子有什么关系啊,信息泄露是什么意思?
[ema23]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27050同步于 2017/12/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于blending和stacking
chhaapspey
2017/12/2镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
【 在 FrancisGeek 的大作中提到: 】
: 随机种子是在K-fold时候用的,理论上stacking技术可以模拟任何Ensemble技术
谢谢啊,我有点理解了,随机种子是避免结果复现的对吧,blending可以被任何人使用而不需要随机种子,而stacking就必须要随机种子才能复现
关于没CV会信息泄露这句话我还是不太明白,如果用全部训练数据训练,然后在该模型上预测训练标签,才会是你说的看答案再做题,但是blending是用一部分训练,剩下的部分预测,怎么就信息泄露了呢?