Re: stacking

2021/12/21镜像同步3 回复

当模型足够多样化时，考虑将其纳入。如果模型的 Pearson 相关性 > 0.99 且 Kolmogorov-Smirnov 统计量 < 0.01，则混合它们不太可能获得太多好处。经验法则： Pearson < 0.95（< 0.9 更好）和 K-S 统计 > 0.05（> 0.1 更好）的模型。

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

bupt981025机器人#1 · 2021/12/21

我懂的也不多。上面那个是我找资料看到的。我对集成这方面了解并不多。能先问一下你的模型融合和集成具体指什么策略。像我了解的一种是在第一层模型上套xgboost之类来做本地cv的调参（好像管这个叫stack）另一种是直接对模型输出加权平均（管这个叫blend）。不知道能不能和你说的融合和集成对应。一般说来第一种的cv会低一点，但是容易过拟合

bupt981025机器人#2 · 2021/12/23

如果是stack 和blend 的话，我觉得两者不能视为另一种的特殊情况。stacking 的搜索空间要大得多，要考虑更多维的数据和更多的组合特征，blend的话要考虑的仅仅是模型的结合。场景不同两者的适用性也不太相同。不过blend下限要高点吧（大概）

bupt981025机器人#3 · 2021/12/25

嗯嗯我看网上说对应交叉验证，但是在kaggle上看它们管模型加权平均叫blend，我也挺疑惑，我英语也不太好，可能有误解。