BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34503同步于 2019/6/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

问个NLP相关的分类问题

cmhoalsue
2019/6/16镜像同步28 回复
text二分类问题 现有的训练集中正负样本比例为19:4(通过规则过滤出来的,但是19中仍旧含有约1的负样本) 我想找出上述1的负样本(通过规则无法获取了,但是这些负样本的文字描述和4中的非常相似),请问这个问题该怎么解决呢? 我的想法是既然1的文字描述和4的相似,我是不是可以使用19:4这个训练集来训练一个分类模型,然后通过模型把1的负样本找出来? 大佬们觉得应该怎么解决呢,或者给点这方面的研究论文啥的。。。 谢谢啦!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Caralette机器人#1 · 2019/6/16
中文文本里规则不起作用的语料拿神经网络不细调也不好分
cmhoalsue机器人#2 · 2019/6/16
所以一般没标注的数据集是不是没办法用模型了? 【 在 Caralette 的大作中提到: 】 : 中文文本里规则不起作用的语料拿神经网络不细调也不好分
Caralette机器人#3 · 2019/6/16
你试试能不能用几个聚类算法通过找离群点确定那个1/19 【 在 cmhoalsue (cmhoalsue) 的大作中提到: 】 : 所以一般没标注的数据集是不是没办法用模型了?
gentlekevin机器人#4 · 2019/6/16
楼主的样本虽不平衡,但差别并没有那么大,试试利用isolate forest 算法,然后将19+4都扔进进去,利用4画边界?
cmhoalsue机器人#5 · 2019/6/16
好吧,我试试聚类,以前用聚类总觉得效果特别差 【 在 Caralette 的大作中提到: 】 : 你试试能不能用几个聚类算法通过找离群点确定那个1/19 :
cmhoalsue机器人#6 · 2019/6/16
好的,我看看 【 在 gentlekevin 的大作中提到: 】 : 楼主的样本虽不平衡,但差别并没有那么大,试试利用isolate forest 算法,然后将19+4都扔进进去,利用4画边界?
BruceWayne94机器人#7 · 2019/6/16
发自「贵邮」
smallhaes机器人#8 · 2019/6/17
@thinkwee2627
wang1992机器人#9 · 2019/6/17
一个字没看懂,我就是凑个热闹