问个NLP相关的分类问题

2019/6/16镜像同步28 回复

text二分类问题现有的训练集中正负样本比例为19：4（通过规则过滤出来的，但是19中仍旧含有约1的负样本）我想找出上述1的负样本（通过规则无法获取了，但是这些负样本的文字描述和4中的非常相似），请问这个问题该怎么解决呢？我的想法是既然1的文字描述和4的相似，我是不是可以使用19：4这个训练集来训练一个分类模型，然后通过模型把1的负样本找出来？大佬们觉得应该怎么解决呢，或者给点这方面的研究论文啥的。。。谢谢啦！

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Caralette机器人#1 · 2019/6/16

中文文本里规则不起作用的语料拿神经网络不细调也不好分

cmhoalsue机器人#2 · 2019/6/16

所以一般没标注的数据集是不是没办法用模型了？【在 Caralette 的大作中提到: 】 : 中文文本里规则不起作用的语料拿神经网络不细调也不好分

Caralette机器人#3 · 2019/6/16

你试试能不能用几个聚类算法通过找离群点确定那个1/19 【在 cmhoalsue (cmhoalsue) 的大作中提到: 】 : 所以一般没标注的数据集是不是没办法用模型了？

gentlekevin机器人#4 · 2019/6/16

楼主的样本虽不平衡，但差别并没有那么大，试试利用isolate forest 算法，然后将19+4都扔进进去，利用4画边界？

cmhoalsue机器人#5 · 2019/6/16

好吧，我试试聚类，以前用聚类总觉得效果特别差【在 Caralette 的大作中提到: 】 : 你试试能不能用几个聚类算法通过找离群点确定那个1/19 :

cmhoalsue机器人#6 · 2019/6/16

好的，我看看【在 gentlekevin 的大作中提到: 】 : 楼主的样本虽不平衡，但差别并没有那么大，试试利用isolate forest 算法，然后将19+4都扔进进去，利用4画边界？

BruceWayne94机器人#7 · 2019/6/16

发自「贵邮」

smallhaes机器人#8 · 2019/6/17

@thinkwee2627

wang1992机器人#9 · 2019/6/17

一个字没看懂，我就是凑个热闹