【求解】文本分类，想用卡方检验和 tf-idf 串联做特征提取

2017/11/20镜像同步5 回复

题目: 【求解】文本分类，想用卡方检验和 tf-idf 串联做特征提取，但是先用哪种比较好？内容: RT，目前我的想法是，因为卡方检验要做多次计算，去掉停用词以后，所有词都按照 chi 计算的话计算量会非常大，所以先想tf-idf，取9000个词再用chi提取6000个，是否可行，求问有没有大神有更全面的考虑和解释

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

jaegerstar机器人#1 · 2017/11/20

是数据挖掘的课吧？其实主要看你的语料类型和规模，要是数据量大不如直接上fasttext或者深一点的网络

pteric机器人#2 · 2017/11/21

是数据挖掘课的大作业，目前训练集50万，用这两种可以不【在 jaegerstar 的大作中提到: 】 : 是数据挖掘的课吧？其实主要看你的语料类型和规模，要是数据量大不如直接上fasttext或者深一点的网络

jaegerstar机器人#3 · 2017/11/21

可以看看fasttext的论文和GitHub，训起来很快，当然你要用传统方法也是可以的就是费事而已【在 pteric 的大作中提到: 】 : 是数据挖掘课的大作业，目前训练集50万，用这两种可以不 :

Sunshinenum机器人#4 · 2017/11/25

可以用卡方检验筛词，权重用tf-idf,试过效果还可以。

pteric机器人#5 · 2017/11/25

现在就是用卡方检验筛词儿，然后用tfidf算权重，维数直接在卡方那定了【在 Sunshinenum 的大作中提到: 】 : 可以用卡方检验筛词，权重用tf-idf,试过效果还可以。