返回信息流面试时被问到一个聚类优化问题,说现在新来了100W条数据,已经有了100个类,如果一条一条的聚类,需要1亿次比较,面试官说他认为这样很浪费,有什么方法优化,不用比较1亿次,并且已经假设这100个类很稳定,中心向量不会变。
大数据的处理接触不多啊,注意不是说时间,而是说比较次数,所以并行化什么的貌似不在点上,求各位大神提供思路呀。
--------------------------------------------------------------------------------
非常感谢大家的回答,又get了新的方法,但是这个问题当时是针对我做的一个文本聚类项目提的,所以可以稍微延伸一下:
1、聚类中心稳定,但是可能会产生新的聚类,所以分类应该不行吧。
2、文本聚类一般采用的都是余弦相似度,不是欧氏距离,只考虑向量夹角不考虑长度,所以首先文本聚类结果应该是无法排序的,其次可能原始的KD树也不太适合?
所以大家一起发散思维,讨论交流共同进步。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19471同步于 2016/4/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
面试中遇到的一个聚类优化问题
jadfi
2016/4/23镜像同步42 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复