返回信息流最近对中文短文本分类比较感兴趣,也是因为业务关系,想系统看看,但发现相关paper比较少,想问一下师兄师姐们,学术界或者工业界有哪些比较有效的方法呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #35287同步于 2019/9/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【NLP】短文本分类
xiaowen
2019/9/21镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
工业界看数据量以及模型部署上线情况,想要精度的话就bert预训练再fintune,但部署bert这种大模型有点需要考虑应用场景,以往常见的分类模型相对预训练模型要差一些,但胜在快
嗯嗯 其实bert还是解决了一个query表示的问题。我原来试过用Bert生成的embedding做query-query的召回,不过没finetune,大概看了下,效果觉得并没有预期好[ema7]
【 在 Sunshine1214 的大作中提到: 】
: 工业界看数据量以及模型部署上线情况,想要精度的话就bert预训练再fintune,但部署bert这种大模型有点需要考虑应用场景,以往常见的分类模型相对预训练模型要差一些,但胜在快
嗯嗯用 textCNN调了一下,25类的分类任务,准确率到 78%,觉得应该还有空间
【 在 DerekHu 的大作中提到: 】
: CNN对于短文本分类效果很好
没有finetuning 肯定不行啦,但是如果你训练数据太少,很容易过拟合哟。
你要相信bert的实力。
25类的分类任务准确率能有78%, 感觉你这个任务有点简单呢。
【 在 xiaowen 的大作中提到: 】
: 嗯嗯 其实bert还是解决了一个query表示的问题。我原来试过用Bert生成的embedding做query-query的召回,不过没finetune,大概看了下,效果觉得并没有预期好
有点简单,是说这个准确率已经很高了吗?
【 在 tlren2 的大作中提到: 】
: 没有finetuning 肯定不行啦,但是如果你训练数据太少,很容易过拟合哟。
: 你要相信bert的实力。
: 25类的分类任务准确率能有78%, 感觉你这个任务有点简单呢。
: ...................