返回信息流text二分类问题
现有的训练集中正负样本比例为19:4(通过规则过滤出来的,但是19中仍旧含有约1的负样本)
我想找出上述1的负样本(通过规则无法获取了,但是这些负样本的文字描述和4中的非常相似),请问这个问题该怎么解决呢?
我的想法是既然1的文字描述和4的相似,我是不是可以使用19:4这个训练集来训练一个分类模型,然后通过模型把1的负样本找出来?
大佬们觉得应该怎么解决呢,或者给点这方面的研究论文啥的。。。
谢谢啦!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34503同步于 2019/6/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
问个NLP相关的分类问题
cmhoalsue
2019/6/16镜像同步28 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
所以一般没标注的数据集是不是没办法用模型了?
【 在 Caralette 的大作中提到: 】
: 中文文本里规则不起作用的语料拿神经网络不细调也不好分
你试试能不能用几个聚类算法通过找离群点确定那个1/19
【 在 cmhoalsue (cmhoalsue) 的大作中提到: 】
: 所以一般没标注的数据集是不是没办法用模型了?
好吧,我试试聚类,以前用聚类总觉得效果特别差
【 在 Caralette 的大作中提到: 】
: 你试试能不能用几个聚类算法通过找离群点确定那个1/19
:
好的,我看看
【 在 gentlekevin 的大作中提到: 】
: 楼主的样本虽不平衡,但差别并没有那么大,试试利用isolate forest 算法,然后将19+4都扔进进去,利用4画边界?