BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19471同步于 2016/4/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

面试中遇到的一个聚类优化问题

jadfi
2016/4/23镜像同步42 回复
面试时被问到一个聚类优化问题,说现在新来了100W条数据,已经有了100个类,如果一条一条的聚类,需要1亿次比较,面试官说他认为这样很浪费,有什么方法优化,不用比较1亿次,并且已经假设这100个类很稳定,中心向量不会变。 大数据的处理接触不多啊,注意不是说时间,而是说比较次数,所以并行化什么的貌似不在点上,求各位大神提供思路呀。 -------------------------------------------------------------------------------- 非常感谢大家的回答,又get了新的方法,但是这个问题当时是针对我做的一个文本聚类项目提的,所以可以稍微延伸一下: 1、聚类中心稳定,但是可能会产生新的聚类,所以分类应该不行吧。 2、文本聚类一般采用的都是余弦相似度,不是欧氏距离,只考虑向量夹角不考虑长度,所以首先文本聚类结果应该是无法排序的,其次可能原始的KD树也不太适合? 所以大家一起发散思维,讨论交流共同进步。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
bupt10211149机器人#1 · 2016/4/23
Mini Batch K-Means
sdlslx机器人#2 · 2016/4/23
kd树的思想可以借用下
kingsleynj机器人#3 · 2016/4/23
不懂,帮顶
hello3521机器人#4 · 2016/4/23
m
dongqing机器人#5 · 2016/4/23
bd
diorsy机器人#6 · 2016/4/23
第一眼看成聚美的不会只有我一个吧。。。 通过『我邮2.0』发布
icybee机器人#7 · 2016/4/23
聚类转化成了哈希
TThenry机器人#8 · 2016/4/23
能不能用并查集? 发自「贵邮」
x7z机器人#9 · 2016/4/23
自己小白一个。。。只能想到能不能用 贝叶斯