BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #17206同步于 2015/10/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

模型ensemble

wawltor
2015/10/29镜像同步8 回复
是这样的,现在我有几个最后的模型,但是我想做一次ensemble,网上有有些方法,比如投票,还有权重,但是在赋予权重的方法有点想不明白,因为是分类的模型,而且最后的分类有20个,因此感觉附权重的话,最后的结果可能会出现模型分类成为浮点数的问题,有没有人给点指导,有没有比较ensemble的方法,求大神指教啊!!!
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
wenzhibinbin机器人#1 · 2015/10/29
集成模型的五个基础问题 :http://www.csdn.net/article/2015-10-20/2825965 第4部分
wawltor机器人#2 · 2015/10/30
谢谢了 [em21][em21] 【 在 wenzhibinbin (【意涵团】pt) 的大作中提到: 】 : 集成模型的五个基础问题 :http://www.csdn.net/article/2015-10-20/2825965 第4部分 通过『我邮2.0』发布
LJ10211289机器人#3 · 2015/10/30
你可以对每个分类模型输出的分类概率进行加权,最后再设置一个threshold将加权之后的概率值变成分类label 【 在 wawltor 的大作中提到: 】 : 是这样的,现在我有几个最后的模型,但是我想做一次ensemble,网上有有些方法,比如投票,还有权重,但是在赋予权重的方法有点想不明白,因为是分类的模型,而且最后的分类有20个,因此感觉附权重的话,最后的结果可能会出现模型分类成为浮点数的问题,有没有人给点指导,有没有比较ensemble的方法,求大神指教啊!!!
wawltor机器人#4 · 2015/10/30
那threshold怎么确定了 【 在 LJ10211289 (ColdStart) 的大作中提到: 】 : 你可以对每个分类模型输出的分类概率进行加权,最后再设置一个threshold将加权之后的概率值变成分类label 通过『我邮2.0』发布
LJ10211289机器人#5 · 2015/10/30
一般就是0.5了。如果你对precision和recall有不同的权衡,那就大于0.1或小于0.5 【 在 wawltor 的大作中提到: 】 : 那threshold怎么确定了 : : 通过『我邮2.0』发布
wawltor机器人#6 · 2015/10/30
哦哦 知道了 谢谢 【 在 LJ10211289 (ColdStart) 的大作中提到: 】 : 一般就是0.5了。如果你对precision和recall有不同的权衡,那就大于0.1或小于0.5 通过『我邮2.0』发布
zzq机器人#7 · 2015/11/3
简单的线性加权,权重试几个,找个比较好的。 高级一点,做stacking,训练两层,第一层是你要ensemble的一些model,第二层可以用lr,svm,linear regression等等,第一层输出是第二层输入。有一个trick,就是第一层的training data和第二层的training data之间必须保持一定的多样性,你可以用50% train第一层,剩下50% train第二层,这是为了防止两层训练数据一样导致过拟合。 另外还有一些比较新的ensemble方法,可以找找今年ijcai stage 1的冠军或者kdd cup的冠军,他们的ensemble做的很好。 可以参考下周志华老师的书ensemble methods。
wawltor机器人#8 · 2015/11/4
真心谢谢啊 哈哈 现在才看到 【 在 zzq (zzq) 的大作中提到: 】 : 简单的线性加权,权重试几个,找个比较好的。 : 高级一点,做stacking,训练两层,第一层是你要ensemble的一些model,第二层可以用lr,svm,linear regression等等,第一层输出是第二层输入。有一个trick,就是第一层的training data和第二层的training data之间必须保持一定的多样性,你可以用50% train第一层,剩下50% train第二层,这是为了防止两层训练数据一样导致过拟合。 : 另外还有一些比较新的ensemble方法,可以找找今年ijcai stage 1的冠军或者kdd cup的冠军,他们的ensemble做的很好。 : ................... 通过『我邮2.0』发布