BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #18830同步于 2017/8/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

求问关于短文本分类

huangrs
2017/8/22镜像同步2 回复
小白求教短文本分类问题: 对聊天记录进行分类(大部分是五六个字。也有挺多两三个字的。我只是想强调真的是短文本。反正就是十个字以上的算里面比较长的文本了[ema9])。总共的语料数据大概是六万条句子,分成13个类别。 目前使用的是svm的linearsvc,使用了交叉验证取了最优参数,80%的训练数据,准确率在78%。 也用了一下贝叶斯,才70%。貌似文本分类SVM会好一点? 大家有什么建议来讨论讨论,提供预处理的思路也行,比如训练数据的每个分类数量均匀之类的。欢迎讨论和指正。接下来会试一下cnn,还有一个开源的TextGrocery。有好结果再来反馈。[ema0]
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
pzhfreeze机器人#1 · 2017/8/24
你用了哪些特征呀,对于这种短文本,特征本身应该比较重要。如果用Neural Networks的话,推荐看这篇文章,写得挺好的https://zhuanlan.zhihu.com/p/25928551
jackling机器人#2 · 2017/8/31
https://www.kaggle.com/jacklinggu/keras-mlp-cnn-test-for-text-classification 反正我试过觉得 WORD EMBEDDING + CNN 短文本分类效果不错