请教一个文本分类的数据清洗问题

2018/7/31镜像同步3 回复

个人背景：初学者，没有相关经验问题介绍：文本分类，每一行一个文档，文档中的所有字、词、符号都做了脱敏处理。简单统计了一下词汇表就有90多万。 1.请问在数据处理阶段有什么好的思路对这种全是脱敏的数据进行处理吗？ 2.或者说采用传统机器学习里的降维是否有效？谢谢各位前辈、同学给小白点思路，不胜感激。[ema1][ema1][ema1]

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

jaegerstar机器人#1 · 2018/7/31

脱敏妨碍你处理的哪个阶段了？按照正常数据的方法不可以？

biedlin机器人#2 · 2018/7/31

谢谢，说的是[ema1] 【在 jaegerstar 的大作中提到: 】 : 脱敏妨碍你处理的哪个阶段了？按照正常数据的方法不可以？

huanshuai机器人#3 · 2018/8/1