返回信息流现在已经爬取完成10类100w文本数据,已经做了分词,去停用词的基本操作。
关于接下来的提取特征词,计算特征词权重,词频统计,文本向量化…这一系列,越看越懵圈,不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka,还是scikit learn,都很迷。
求大佬。赐教。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32566同步于 2018/11/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于文本分类预处理的问题求教
xiaotao
2018/11/21镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
【 在 xiaotao 的大作中提到: 】
: 现在已经爬取完成10类100w文本数据,已经做了分词,去停用词的基本操作。
: 关于接下来的提取特征词,计算特征词权重,词频统计,文本向量化…这一系列,越看越懵圈,不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka,还是scikit learn,都很迷。
: 求大佬。赐教。
weka貌似好像不适合做中文文本的分类,用英文效果比中文好。