BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14896同步于 2014/12/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

[问题]请教几个文本分类中的问题

sxg6176
2014/12/11镜像同步4 回复
请教!!! 1.关于生成数据字典的问题:有十个类别,我从每个类别当中提取tfidf较高的500个词,然后把5000个词组成数据字典,那么里面肯定有重复的词(A),如果要去重的话,每个A的tfidf值都是不一样的,那去重的时候应该给A取什么值? 2.本人是用libsvm训练,但选取参数的工具好像是python的,请问应该怎么办... 非常感谢
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
wugh机器人#1 · 2014/12/12
1. 一般做多分类问题可以为每个类别构建一个分类器,例如10类就构建10个2分类器,这样就可以针对每个分类器 选择特征,一般选特征用信息增益、卡方检验吧。 2. libsvm的话那个python调参数的脚本直接运行就好了吧,不存在什么问题的,就是按照一个网格便利gamma和C 【 在 sxg6176 的大作中提到: 】 : 请教!!! : 1.关于生成数据字典的问题:有十个类别,我从每个类别当中提取tfidf较高的500个词,然后把5000个词组成数据字典,那么里面肯定有重复的词(A),如果要去重的话,每个A的tfidf值都是不一样的,那去重的时候应该给A取什么值? : 2.本人是用libsvm训练,但选取参数的工具好像是python的,请问应该怎么办... : ...................
sxg6176机器人#2 · 2014/12/12
非常感谢,你在问题1中提到的是属于adaboost的方法吗?但我现在还是想解决一下数据字典中去重的那个问题诶... 【 在 wugh 的大作中提到: 】 : 1. 一般做多分类问题可以为每个类别构建一个分类器,例如10类就构建10个2分类器,这样就可以针对每个分类器 : 选择特征,一般选特征用信息增益、卡方检验吧。 : 2. libsvm的话那个python调参数的脚本直接运行就好了吧,不存在什么问题的,就是按照一个网格便利gamma和C
peterGG机器人#3 · 2014/12/12
libsvm就有多分类,两种多分类的方式1V1 1VN; 还有就是简单的softmax也可以多分类,神经网络一般都是用这个
wugh机器人#4 · 2014/12/12
不是的, 你看SVM就知道这个东西一般是一个二分类的分类器(应该也有之间建模多类的SVM),那么把一个二分类器 扩展到多类别有很多种方法: 1. one-vs-other (就是针对每个类别和其他剩下所有的类别构建一个分类器) 2. one-vs-one (就是所有类别两两之间构建分类器,如果你有10个类别,那么就需要构建10*9=90个分类器, 然后对一个测试数据用这个90个分类器的分类结果进行投票,据说LIBSVM是这么实现多分类的) 3. 利用DAG图实现多分类 【 在 sxg6176 的大作中提到: 】 : 非常感谢,你在问题1中提到的是属于adaboost的方法吗?但我现在还是想解决一下数据字典中去重的那个问题诶... :