关于文本分类预处理的问题求教

2018/11/21镜像同步6 回复

现在已经爬取完成10类100w文本数据，已经做了分词，去停用词的基本操作。关于接下来的提取特征词，计算特征词权重，词频统计，文本向量化…这一系列，越看越懵圈，不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka，还是scikit learn，都很迷。求大佬。赐教。

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

xiaotao机器人#1 · 2018/11/21

现在的数据格式是，每篇文本在一个.txt文件里。

xiaotao机器人#2 · 2018/11/21

不是预处理问题…是特征提取和向量表示的问题…

chinapds机器人#3 · 2018/11/22

deep learning 一把梭[ema36]

lcxt15机器人#4 · 2018/11/22

bert核弹一发入魂

SuperDream机器人#5 · 2018/11/22

【在 xiaotao 的大作中提到: 】 : 现在已经爬取完成10类100w文本数据，已经做了分词，去停用词的基本操作。 : 关于接下来的提取特征词，计算特征词权重，词频统计，文本向量化…这一系列，越看越懵圈，不知道到底该如何做。按什么顺序做。最后的文本要处理成什么样的格式。甚至对于工具选择weka，还是scikit learn，都很迷。 : 求大佬。赐教。 weka貌似好像不适合做中文文本的分类，用英文效果比中文好。

Johnson11机器人#6 · 2018/11/22

先试试最简单的fasttext吧，有问题可以私信我，我文本分类经验还算比较丰富