返回信息流小白求教短文本分类问题:
对聊天记录进行分类(大部分是五六个字。也有挺多两三个字的。我只是想强调真的是短文本。反正就是十个字以上的算里面比较长的文本了[ema9])。总共的语料数据大概是六万条句子,分成13个类别。
目前使用的是svm的linearsvc,使用了交叉验证取了最优参数,80%的训练数据,准确率在78%。
也用了一下贝叶斯,才70%。貌似文本分类SVM会好一点?
大家有什么建议来讨论讨论,提供预处理的思路也行,比如训练数据的每个分类数量均匀之类的。欢迎讨论和指正。接下来会试一下cnn,还有一个开源的TextGrocery。有好结果再来反馈。[ema0]
这是一条镜像帖。来源:北邮人论坛 / python / #18830同步于 2017/8/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
求问关于短文本分类
huangrs
2017/8/22镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。