返回信息流最近在用LibSVM,在此看一下有没有做过或者正在做这方面的同学,共同探讨一下!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #7120同步于 2010/8/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
寻找用LibSVM做文本分类的同学,共同交流一下!!
zuohongyan
2010/8/2镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
不会
热情一顶
【 在 zuohongyan (北国飞燕) 的大作中提到: 】
: 最近在用LibSVM,在此看一下有没有做过或者正在做这方面的同学,共同探讨一下!
啥问题直接版上发帖讨论呗
【 在 zuohongyan (北国飞燕) 的大作中提到: 】
: 最近在用LibSVM,在此看一下有没有做过或者正在做这方面的同学,共同探讨一下!
虽然我不是做文本分类的,但是LibSVM还算用过:
1. LibSVM作者说是可以用于largescale数据集的,而成千上万个样本不算多,LibSVM完
全可以胜任;
2. 常用的需要调整的也就这俩了,还有一些其他的参数对训练影响不大,你可以参照下
LibSVM的论文。
【 在 zuohongyan (北国飞燕) 的大作中提到: 】
: 主要是有两方面的疑惑
: 一;该方法是否能够推广到成千上万的样本?
: 二:具体的训练参数,除了g和c之外,还有别的优化的地方吗?
: ...................
对于多个类别的情况,可以构造多个二分类器,LibSVM完全实现了该功能,但是最后却只有一组g和c参数,以我的理解不应当是有几个分类器 就有几组参数吗?
【 在 zuohongyan 的大作中提到: 】
: 对于多个类别的情况,可以构造多个二分类器,LibSVM完全实现了该功能,但是最后却只有一组g和c参数,以我的理解不应当是有几个分类器 就有几组参数吗?
: --
gamma应该是用一个,demo中的意思是设置一个C,然后根据样本的数量设置weight_C,样本数量越多weight_C越小,和类别样本的数量成反比。
对于weight_C是调解样本数量的不均衡性的,我可以这样理解你的意思吗?gamma参数用一个,对于每一组分类器的参数C是按看待分类的两个类别的数量的大小的!
理解不足之处,还请指点一下!!谢谢!
【 在 zuohongyan 的大作中提到: 】
: 对于weight_C是调解样本数量的不均衡性的,我可以这样理解你的意思吗?gamma参数用一个,对于每一组分类器的参数C是按看待分类的两个类别的数量的大小的!
: 理解不足之处,还请指点一下!!谢谢!
: --
: ...................
我也就是大致看看了demo没有细节去理解,“对于weight_C是调解样本数量的不均衡性的”可以这样理解,这个可能是随着样本的差异增大,如果使用相同的C可能会产生类别漂移,也就是分类的时候比较倾向那个样本较多的类别。
你在做实验的时候如果想倾向某个类别,你可以把它的C增大,也就是说它错一个惩罚更大,这样分类面离这个类别远一点,最后的分类肯定是偏向于这个类别,具体看demo比较好。我看demo中的gamma就是用一个相同的。