关于文本分类特征选择的疑惑

2018/11/23镜像同步52 回复

在十类，一类100篇的训练集和测试集上实验的。用scikit learn进行了如下处理。获得词频矩阵。根据词频矩阵获得tf-idf矩阵。 Svm分类，得到82.5准确率。然后想在tf-idf之前，用卡方检验选择一下。但是发现，用词频矩阵获得卡方值矩阵。。。。。。然后是应该根据卡方值选出的词汇表，把原文本数据的词筛选一遍，再获得词频矩阵，然后再得到tf-idf矩阵呢。。。。那，，，如果是的话，筛选词这个过程，是要手动遍历所有文本，来做的么？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

jaegerstar机器人#1 · 2018/11/23

搞那么复杂，何不textcnn弄起来就好，胜过你svm

hbhmwzl机器人#2 · 2018/11/23

搞那么复杂，何不用bert弄起来，胜过textcnn

xiaotao机器人#3 · 2018/11/23

哈？你们在说什么…

jaegerstar机器人#4 · 2018/11/23

你要考虑lz有没有GPU的情况，即使用预训教也吃力，而textcnn用cpu还能一战【在 hbhmwzl 的大作中提到: 】 : 搞那么复杂，何不用bert弄起来，胜过textcnn

c000h000g机器人#5 · 2018/11/23

fasttext 试了吗？

qaqa123机器人#6 · 2018/11/23

大作业？fasttext简单实用

xdql机器人#7 · 2018/11/23

我就这么做。。各种遍历的蛋疼死了。。。

DerekHu机器人#8 · 2018/11/23

如果你用BOW作为feature并且用卡方作为权重的话是sklearn是有库函数可以帮你做这件事的。其实这里的feature你用的都是词袋，tfidf或者卡方只是对应每个feature的权重计算方法不一样

pteric机器人#9 · 2018/11/24

当年做这个大作业就是用程序遍历了所有的文本，不过你也可以进行抽样