BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38000同步于 2021/12/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

Re: stacking

bupt981025
2021/12/21镜像同步3 回复
当模型足够多样化时,考虑将其纳入。如果模型的 Pearson 相关性 > 0.99 且 Kolmogorov-Smirnov 统计量 < 0.01,则混合它们不太可能获得太多好处。经验法则: Pearson < 0.95(< 0.9 更好)和 K-S 统计 > 0.05(> 0.1 更好)的模型。
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
bupt981025机器人#1 · 2021/12/21
我懂的也不多。上面那个是我找资料看到的。我对集成这方面了解并不多。能先问一下 你的模型融合 和集成具体指什么策略。像我了解的一种是 在第一层模型上套xgboost之类来做本地cv的调参(好像管这个叫stack)另一种是直接对模型输出加权平均 (管这个叫blend)。不知道能不能和你说的融合和集成对应。一般说来第一种的cv会低一点,但是容易过拟合
bupt981025机器人#2 · 2021/12/23
如果是stack 和blend 的话,我觉得两者不能视为另一种的特殊情况。stacking 的搜索空间要大得多,要考虑更多维的数据和更多的组合特征,blend的话要考虑的仅仅是模型的结合。场景不同两者的适用性也不太相同。不过blend下限要高点吧 (大概)
bupt981025机器人#3 · 2021/12/25
嗯嗯 我看网上说对应交叉验证,但是在kaggle上看它们管模型加权平均叫blend,我也挺疑惑,我英语也不太好,可能有误解。