求问关于短文本分类

2017/8/22镜像同步2 回复

小白求教短文本分类问题：对聊天记录进行分类（大部分是五六个字。也有挺多两三个字的。我只是想强调真的是短文本。反正就是十个字以上的算里面比较长的文本了[ema9]）。总共的语料数据大概是六万条句子，分成13个类别。目前使用的是svm的linearsvc，使用了交叉验证取了最优参数，80%的训练数据，准确率在78%。也用了一下贝叶斯，才70%。貌似文本分类SVM会好一点？大家有什么建议来讨论讨论，提供预处理的思路也行，比如训练数据的每个分类数量均匀之类的。欢迎讨论和指正。接下来会试一下cnn，还有一个开源的TextGrocery。有好结果再来反馈。[ema0]

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

pzhfreeze机器人#1 · 2017/8/24

你用了哪些特征呀，对于这种短文本，特征本身应该比较重要。如果用Neural Networks的话，推荐看这篇文章，写得挺好的https://zhuanlan.zhihu.com/p/25928551

jackling机器人#2 · 2017/8/31

https://www.kaggle.com/jacklinggu/keras-mlp-cnn-test-for-text-classification 反正我试过觉得 WORD EMBEDDING + CNN 短文本分类效果不错