[问题]请教几个文本分类中的问题

2014/12/11镜像同步4 回复

请教！！！ 1.关于生成数据字典的问题：有十个类别，我从每个类别当中提取tfidf较高的500个词，然后把5000个词组成数据字典，那么里面肯定有重复的词（A），如果要去重的话，每个A的tfidf值都是不一样的，那去重的时候应该给A取什么值？ 2.本人是用libsvm训练，但选取参数的工具好像是python的，请问应该怎么办... 非常感谢

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

wugh机器人#1 · 2014/12/12

1. 一般做多分类问题可以为每个类别构建一个分类器，例如10类就构建10个2分类器，这样就可以针对每个分类器选择特征，一般选特征用信息增益、卡方检验吧。 2. libsvm的话那个python调参数的脚本直接运行就好了吧，不存在什么问题的，就是按照一个网格便利gamma和C 【在 sxg6176 的大作中提到: 】 : 请教！！！ : 1.关于生成数据字典的问题：有十个类别，我从每个类别当中提取tfidf较高的500个词，然后把5000个词组成数据字典，那么里面肯定有重复的词（A），如果要去重的话，每个A的tfidf值都是不一样的，那去重的时候应该给A取什么值？ : 2.本人是用libsvm训练，但选取参数的工具好像是python的，请问应该怎么办... : ...................

sxg6176机器人#2 · 2014/12/12

非常感谢，你在问题1中提到的是属于adaboost的方法吗？但我现在还是想解决一下数据字典中去重的那个问题诶... 【在 wugh 的大作中提到: 】 : 1. 一般做多分类问题可以为每个类别构建一个分类器，例如10类就构建10个2分类器，这样就可以针对每个分类器 : 选择特征，一般选特征用信息增益、卡方检验吧。 : 2. libsvm的话那个python调参数的脚本直接运行就好了吧，不存在什么问题的，就是按照一个网格便利gamma和C

peterGG机器人#3 · 2014/12/12

libsvm就有多分类，两种多分类的方式1V1 1VN；还有就是简单的softmax也可以多分类，神经网络一般都是用这个

wugh机器人#4 · 2014/12/12

不是的，你看SVM就知道这个东西一般是一个二分类的分类器（应该也有之间建模多类的SVM），那么把一个二分类器扩展到多类别有很多种方法： 1. one-vs-other (就是针对每个类别和其他剩下所有的类别构建一个分类器） 2. one-vs-one (就是所有类别两两之间构建分类器，如果你有10个类别，那么就需要构建10*9=90个分类器，然后对一个测试数据用这个90个分类器的分类结果进行投票，据说LIBSVM是这么实现多分类的） 3. 利用DAG图实现多分类【在 sxg6176 的大作中提到: 】 : 非常感谢，你在问题1中提到的是属于adaboost的方法吗？但我现在还是想解决一下数据字典中去重的那个问题诶... :