返回信息流是这样的,现在我有几个最后的模型,但是我想做一次ensemble,网上有有些方法,比如投票,还有权重,但是在赋予权重的方法有点想不明白,因为是分类的模型,而且最后的分类有20个,因此感觉附权重的话,最后的结果可能会出现模型分类成为浮点数的问题,有没有人给点指导,有没有比较ensemble的方法,求大神指教啊!!!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #17206同步于 2015/10/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
模型ensemble
wawltor
2015/10/29镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
谢谢了 [em21][em21]
【 在 wenzhibinbin (【意涵团】pt) 的大作中提到: 】
: 集成模型的五个基础问题 :http://www.csdn.net/article/2015-10-20/2825965 第4部分
通过『我邮2.0』发布
你可以对每个分类模型输出的分类概率进行加权,最后再设置一个threshold将加权之后的概率值变成分类label
【 在 wawltor 的大作中提到: 】
: 是这样的,现在我有几个最后的模型,但是我想做一次ensemble,网上有有些方法,比如投票,还有权重,但是在赋予权重的方法有点想不明白,因为是分类的模型,而且最后的分类有20个,因此感觉附权重的话,最后的结果可能会出现模型分类成为浮点数的问题,有没有人给点指导,有没有比较ensemble的方法,求大神指教啊!!!
那threshold怎么确定了
【 在 LJ10211289 (ColdStart) 的大作中提到: 】
: 你可以对每个分类模型输出的分类概率进行加权,最后再设置一个threshold将加权之后的概率值变成分类label
通过『我邮2.0』发布
一般就是0.5了。如果你对precision和recall有不同的权衡,那就大于0.1或小于0.5
【 在 wawltor 的大作中提到: 】
: 那threshold怎么确定了
:
: 通过『我邮2.0』发布
哦哦 知道了 谢谢
【 在 LJ10211289 (ColdStart) 的大作中提到: 】
: 一般就是0.5了。如果你对precision和recall有不同的权衡,那就大于0.1或小于0.5
通过『我邮2.0』发布
简单的线性加权,权重试几个,找个比较好的。
高级一点,做stacking,训练两层,第一层是你要ensemble的一些model,第二层可以用lr,svm,linear regression等等,第一层输出是第二层输入。有一个trick,就是第一层的training data和第二层的training data之间必须保持一定的多样性,你可以用50% train第一层,剩下50% train第二层,这是为了防止两层训练数据一样导致过拟合。
另外还有一些比较新的ensemble方法,可以找找今年ijcai stage 1的冠军或者kdd cup的冠军,他们的ensemble做的很好。
可以参考下周志华老师的书ensemble methods。
真心谢谢啊 哈哈 现在才看到
【 在 zzq (zzq) 的大作中提到: 】
: 简单的线性加权,权重试几个,找个比较好的。
: 高级一点,做stacking,训练两层,第一层是你要ensemble的一些model,第二层可以用lr,svm,linear regression等等,第一层输出是第二层输入。有一个trick,就是第一层的training data和第二层的training data之间必须保持一定的多样性,你可以用50% train第一层,剩下50% train第二层,这是为了防止两层训练数据一样导致过拟合。
: 另外还有一些比较新的ensemble方法,可以找找今年ijcai stage 1的冠军或者kdd cup的冠军,他们的ensemble做的很好。
: ...................
通过『我邮2.0』发布