返回信息流RT,目前在在做一个算是文本分类相关的任务,数据集是生物医学领域的数据,目前encoding的方式已经是确定的(one-hot),具体的任务目标就是对序列做一个二分类。在模型方面baseline效果最好的是CNN,有尝试过CNN+LSTM,ResNet效果都不是很好,求各位大佬赐教,还有什么可以尝试的相关模型吗? 谢谢大噶!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32661同步于 2018/11/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求问 文本分类相关的模型问题
aaaaoooo
2018/11/24镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
resnet都上了嘛~~~~既然是text classification还是用一些text classification的模型区做吧,textcnn,textrnn,attention系列之类,或者跟进一下最新的论文
好的谢谢~~
【 在 happybuqilai 的大作中提到: 】
: resnet都上了嘛~~~~既然是text classification还是用一些text classification的模型区做吧,textcnn,textrnn,attention系列之类,或者跟
: .........
发自「贵邮」
emmmm 其实有想去关注一下数据本身的特性,但是不太知道怎么去分析…
【 在 geshapolang 的大作中提到: 】
: 好的NN模型也是提升有限吧,更重要的是观察数据特点,bad case分析。分类系统的NN模型很多,建议不要盲目尝试
:
发自「贵邮」
【 在 aaaaoooo 的大作中提到: 】
: emmmm 其实有想去关注一下数据本身的特性,但是不太知道怎么去分析…
: 发自「贵邮」
看数据规模,输入长度,错误样本中有没共性特点等等。如果数据量不大,直接上xgboost特征工程搞起肯定比NN效果好
1. NB, SVM, etc 2. LSTM/GRU 3. CNN(常用3、4、5 filter size) 4. fasttext(应该要用word2vec/glove) 5. RNN+self-attention 6. 句向量(sentence embedding)+二分类 。。。。。。