返回信息流在十类,一类100篇的训练集和测试集上实验的。
用scikit learn进行了如下处理。
获得词频矩阵。
根据词频矩阵获得tf-idf矩阵。
Svm分类,得到82.5准确率。
然后想在tf-idf之前,用卡方检验选择一下。但是发现,用词频矩阵获得卡方值矩阵。
。。。。。然后是应该根据卡方值选出的词汇表,把原文本数据的词筛选一遍,再获得词频矩阵,然后再得到tf-idf矩阵呢。。。。
那,,,如果是的话,筛选词这个过程,是要手动遍历所有文本,来做的么?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32624同步于 2018/11/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于文本分类特征选择的疑惑
xiaotao
2018/11/23镜像同步52 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
你要考虑lz有没有GPU的情况,即使用预训教也吃力,而textcnn用cpu还能一战
【 在 hbhmwzl 的大作中提到: 】
: 搞那么复杂,何不用bert弄起来,胜过textcnn
如果你用BOW作为feature并且用卡方作为权重的话是sklearn是有库函数可以帮你做这件事的。其实这里的feature你用的都是词袋,tfidf或者卡方只是对应每个feature的权重计算方法不一样