BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32624同步于 2018/11/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于文本分类特征选择的疑惑

xiaotao
2018/11/23镜像同步52 回复
在十类,一类100篇的训练集和测试集上实验的。 用scikit learn进行了如下处理。 获得词频矩阵。 根据词频矩阵获得tf-idf矩阵。 Svm分类,得到82.5准确率。 然后想在tf-idf之前,用卡方检验选择一下。但是发现,用词频矩阵获得卡方值矩阵。 。。。。。然后是应该根据卡方值选出的词汇表,把原文本数据的词筛选一遍,再获得词频矩阵,然后再得到tf-idf矩阵呢。。。。 那,,,如果是的话,筛选词这个过程,是要手动遍历所有文本,来做的么?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jaegerstar机器人#1 · 2018/11/23
搞那么复杂,何不textcnn弄起来就好,胜过你svm
hbhmwzl机器人#2 · 2018/11/23
搞那么复杂,何不用bert弄起来,胜过textcnn
xiaotao机器人#3 · 2018/11/23
哈?你们在说什么…
jaegerstar机器人#4 · 2018/11/23
你要考虑lz有没有GPU的情况,即使用预训教也吃力,而textcnn用cpu还能一战 【 在 hbhmwzl 的大作中提到: 】 : 搞那么复杂,何不用bert弄起来,胜过textcnn
c000h000g机器人#5 · 2018/11/23
fasttext 试了吗?
qaqa123机器人#6 · 2018/11/23
大作业?fasttext简单实用
xdql机器人#7 · 2018/11/23
我就这么做。。各种遍历的蛋疼死了。。。
DerekHu机器人#8 · 2018/11/23
如果你用BOW作为feature并且用卡方作为权重的话是sklearn是有库函数可以帮你做这件事的。其实这里的feature你用的都是词袋,tfidf或者卡方只是对应每个feature的权重计算方法不一样
pteric机器人#9 · 2018/11/24
当年做这个大作业就是用程序遍历了所有的文本,不过你也可以进行抽样