BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23585同步于 2017/4/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

文本分类特征选择问题

breakdawn
2017/4/11镜像同步3 回复
lz本科小白,做的毕设是从产品评论中挖掘产品问题。首先数据预处理要把无用的评论去除,要用到文本分类,对于一条文本,如何选取特征将其定义为一条有用评论呢?
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
breakdawn机器人#1 · 2017/4/12
先根据词频建立词表,然后通过词性标注抽取特定词性的词,然后将抽取的词量化。用按照词性抽取的特征词来分类是否够准确?
breakdawn机器人#2 · 2017/4/13
哇都没人理我。。。 现在弄清楚了一些,特征选择时用卡方检验(特征降维),量化时用tfidf(特征量化),可达到很好的文本分类效果。 目前思路是先人工标注文本,过滤标点、停用词等等,分词,计算词的卡方检验值,按卡方值排序由大到小选取前K个词进行tfidf量化,训练分类器。。。。若有问题跪求指正、交流
l11x0m7机器人#3 · 2017/4/13
可以这么做,建议考虑ngram 【 在 breakdawn 的大作中提到: 】 : 哇都没人理我。。。 现在弄清楚了一些,特征选择时用卡方检验(特征降维),量化时用tfidf(特征量化),可达到很好的文本分类效果。 目前思路是先人工标注文本,过滤标点、停用词等等,分词,计算词的卡方检验值,按卡方值排序由大到小选取前K个词进行tfidf量化,训练分类器。。。。若有问题跪求指正、交流