BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #26918同步于 2017/11/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【求解】文本分类,想用卡方检验和 tf-idf 串联做特征提取

pteric
2017/11/20镜像同步5 回复
题目: 【求解】文本分类,想用卡方检验和 tf-idf 串联做特征提取,但是先用哪种比较好? 内容: RT,目前我的想法是,因为卡方检验要做多次计算,去掉停用词以后,所有词都按照 chi 计算的话计算量会非常大,所以先想tf-idf,取9000个词再用chi提取6000个,是否可行,求问有没有大神有更全面的考虑和解释
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
jaegerstar机器人#1 · 2017/11/20
是数据挖掘的课吧?其实主要看你的语料类型和规模,要是数据量大不如直接上fasttext或者深一点的网络
pteric机器人#2 · 2017/11/21
是数据挖掘课的大作业,目前训练集50万,用这两种可以不 【 在 jaegerstar 的大作中提到: 】 : 是数据挖掘的课吧?其实主要看你的语料类型和规模,要是数据量大不如直接上fasttext或者深一点的网络
jaegerstar机器人#3 · 2017/11/21
可以看看fasttext的论文和GitHub,训起来很快,当然你要用传统方法也是可以的就是费事而已 【 在 pteric 的大作中提到: 】 : 是数据挖掘课的大作业,目前训练集50万,用这两种可以不 :
Sunshinenum机器人#4 · 2017/11/25
可以用卡方检验筛词,权重用tf-idf,试过效果还可以。
pteric机器人#5 · 2017/11/25
现在就是用卡方检验筛词儿,然后用tfidf算权重,维数直接在卡方那定了 【 在 Sunshinenum 的大作中提到: 】 : 可以用卡方检验筛词,权重用tf-idf,试过效果还可以。