返回信息流现在遇到这样一种很蛋疼的情况:
给出了一些行业类型,类型非常细,比如:
公司搬家
小件搬家
长途搬家搬运
管家
金属回收
etc...
然后是用户的query,特点是短,信息量非常少而且没有标签,而且非常非常非常多,需求是需要在这些query中找到符合上面行业特征的query(也就是一个分类问题)
由于没有标注,所以如果想要用传统的监督学习方法就非常困难,而无监督的聚类如何保证正好聚在需求的行业上是一个非常大的问题,而且像小件搬家和公司搬家这样的query如果使用聚类的话很可能就无法区分。如何搞????
之前尝试过用规则(也就是直接判断行业是否存在于query中,以及一些近似的方法),效果可想而知,比如管家这个分类就会匹配上360软件管家,百度管家,腾讯管家,然而这些管家并不是管家,日!
求助!!!
求助!!!
求助!!!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #17772同步于 2015/12/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]【求救求救求救】求助无标注短query分类问题
icybee
2015/12/14镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
没法搞啊。。。要是用户查询“搬家”。。你也不知道他是公司搬家还是小件搬家。。
所以,就是关键字直接匹配,匹配上了就返回。。。每个小行业设置一些关键词好了。。能匹配上就返回好了
要是有也不会这么纠结啊
【 在 moonfighting 的大作中提到: 】
: 信息太少了,没有一些别的数据吗?比如历史query对应的类别的点击数据
问题是需要标注的query分布很不均匀,有些长尾的意思,而且加起来占总体query比例也只有5~10%,人工筛选一是不能保证所有的标签都能取到足够的query量,二是需要筛选的query量非常之大,而且我们是一个全是rd的部门,没有专门的人做标注。
【 在 czct 的大作中提到: 】
: 这种问题,人工标注必须得有,目标变量已经很明确,肯定是一个有监督的学习过程。前期需要投入一定的人力成本来做。样本量可以不太大。
好好标注把:1)没相关性的数据肯定不行2)用人走规则还不是先标数据
可以先标注一些,然后把特征作为1-gram规则去过滤再标注那些原本忽略的数据(比如上面的360管家,如果360也是一个特征的话,会有矛盾?),循环学习
无监督,如果短query全是1,2个词的,那直接做词/词组的(人工)聚类呗。。。