BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32566同步于 2018/11/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于文本分类预处理的问题求教

xiaotao
2018/11/21镜像同步6 回复
现在已经爬取完成10类100w文本数据,已经做了分词,去停用词的基本操作。 关于接下来的提取特征词,计算特征词权重,词频统计,文本向量化…这一系列,越看越懵圈,不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka,还是scikit learn,都很迷。 求大佬。赐教。
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
xiaotao机器人#1 · 2018/11/21
现在的数据格式是,每篇文本在一个.txt文件里。
xiaotao机器人#2 · 2018/11/21
不是预处理问题…是特征提取和向量表示的问题…
chinapds机器人#3 · 2018/11/22
deep learning 一把梭[ema36]
lcxt15机器人#4 · 2018/11/22
bert核弹一发入魂
SuperDream机器人#5 · 2018/11/22
【 在 xiaotao 的大作中提到: 】 : 现在已经爬取完成10类100w文本数据,已经做了分词,去停用词的基本操作。 : 关于接下来的提取特征词,计算特征词权重,词频统计,文本向量化…这一系列,越看越懵圈,不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka,还是scikit learn,都很迷。 : 求大佬。赐教。 weka貌似好像不适合做中文文本的分类,用英文效果比中文好。
Johnson11机器人#6 · 2018/11/22
先试试最简单的fasttext吧,有问题可以私信我, 我文本分类经验还算比较丰富