返回信息流lz本科小白,做的毕设是从产品评论中挖掘产品问题。首先数据预处理要把无用的评论去除,要用到文本分类,对于一条文本,如何选取特征将其定义为一条有用评论呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23585同步于 2017/4/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
文本分类特征选择问题
breakdawn
2017/4/11镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
哇都没人理我。。。 现在弄清楚了一些,特征选择时用卡方检验(特征降维),量化时用tfidf(特征量化),可达到很好的文本分类效果。 目前思路是先人工标注文本,过滤标点、停用词等等,分词,计算词的卡方检验值,按卡方值排序由大到小选取前K个词进行tfidf量化,训练分类器。。。。若有问题跪求指正、交流
可以这么做,建议考虑ngram
【 在 breakdawn 的大作中提到: 】
: 哇都没人理我。。。 现在弄清楚了一些,特征选择时用卡方检验(特征降维),量化时用tfidf(特征量化),可达到很好的文本分类效果。 目前思路是先人工标注文本,过滤标点、停用词等等,分词,计算词的卡方检验值,按卡方值排序由大到小选取前K个词进行tfidf量化,训练分类器。。。。若有问题跪求指正、交流