返回信息流请教!!!
1.关于生成数据字典的问题:有十个类别,我从每个类别当中提取tfidf较高的500个词,然后把5000个词组成数据字典,那么里面肯定有重复的词(A),如果要去重的话,每个A的tfidf值都是不一样的,那去重的时候应该给A取什么值?
2.本人是用libsvm训练,但选取参数的工具好像是python的,请问应该怎么办...
非常感谢
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14896同步于 2014/12/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]请教几个文本分类中的问题
sxg6176
2014/12/11镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
1. 一般做多分类问题可以为每个类别构建一个分类器,例如10类就构建10个2分类器,这样就可以针对每个分类器
选择特征,一般选特征用信息增益、卡方检验吧。
2. libsvm的话那个python调参数的脚本直接运行就好了吧,不存在什么问题的,就是按照一个网格便利gamma和C
【 在 sxg6176 的大作中提到: 】
: 请教!!!
: 1.关于生成数据字典的问题:有十个类别,我从每个类别当中提取tfidf较高的500个词,然后把5000个词组成数据字典,那么里面肯定有重复的词(A),如果要去重的话,每个A的tfidf值都是不一样的,那去重的时候应该给A取什么值?
: 2.本人是用libsvm训练,但选取参数的工具好像是python的,请问应该怎么办...
: ...................
非常感谢,你在问题1中提到的是属于adaboost的方法吗?但我现在还是想解决一下数据字典中去重的那个问题诶...
【 在 wugh 的大作中提到: 】
: 1. 一般做多分类问题可以为每个类别构建一个分类器,例如10类就构建10个2分类器,这样就可以针对每个分类器
: 选择特征,一般选特征用信息增益、卡方检验吧。
: 2. libsvm的话那个python调参数的脚本直接运行就好了吧,不存在什么问题的,就是按照一个网格便利gamma和C
不是的,
你看SVM就知道这个东西一般是一个二分类的分类器(应该也有之间建模多类的SVM),那么把一个二分类器
扩展到多类别有很多种方法:
1. one-vs-other (就是针对每个类别和其他剩下所有的类别构建一个分类器)
2. one-vs-one (就是所有类别两两之间构建分类器,如果你有10个类别,那么就需要构建10*9=90个分类器,
然后对一个测试数据用这个90个分类器的分类结果进行投票,据说LIBSVM是这么实现多分类的)
3. 利用DAG图实现多分类
【 在 sxg6176 的大作中提到: 】
: 非常感谢,你在问题1中提到的是属于adaboost的方法吗?但我现在还是想解决一下数据字典中去重的那个问题诶...
: