返回信息流题目:
【求解】文本分类,想用卡方检验和 tf-idf 串联做特征提取,但是先用哪种比较好?
内容:
RT,目前我的想法是,因为卡方检验要做多次计算,去掉停用词以后,所有词都按照 chi 计算的话计算量会非常大,所以先想tf-idf,取9000个词再用chi提取6000个,是否可行,求问有没有大神有更全面的考虑和解释
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #26918同步于 2017/11/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【求解】文本分类,想用卡方检验和 tf-idf 串联做特征提取
pteric
2017/11/20镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
是数据挖掘课的大作业,目前训练集50万,用这两种可以不
【 在 jaegerstar 的大作中提到: 】
: 是数据挖掘的课吧?其实主要看你的语料类型和规模,要是数据量大不如直接上fasttext或者深一点的网络
可以看看fasttext的论文和GitHub,训起来很快,当然你要用传统方法也是可以的就是费事而已
【 在 pteric 的大作中提到: 】
: 是数据挖掘课的大作业,目前训练集50万,用这两种可以不
:
现在就是用卡方检验筛词儿,然后用tfidf算权重,维数直接在卡方那定了
【 在 Sunshinenum 的大作中提到: 】
: 可以用卡方检验筛词,权重用tf-idf,试过效果还可以。