BYR Achieve · 镜像论坛

面试中遇到的一个聚类优化问题

2016/4/23镜像同步42 回复

面试时被问到一个聚类优化问题，说现在新来了100W条数据，已经有了100个类，如果一条一条的聚类，需要1亿次比较，面试官说他认为这样很浪费，有什么方法优化，不用比较1亿次，并且已经假设这100个类很稳定，中心向量不会变。大数据的处理接触不多啊，注意不是说时间，而是说比较次数，所以并行化什么的貌似不在点上，求各位大神提供思路呀。 -------------------------------------------------------------------------------- 非常感谢大家的回答，又get了新的方法，但是这个问题当时是针对我做的一个文本聚类项目提的，所以可以稍微延伸一下： 1、聚类中心稳定，但是可能会产生新的聚类，所以分类应该不行吧。 2、文本聚类一般采用的都是余弦相似度，不是欧氏距离，只考虑向量夹角不考虑长度，所以首先文本聚类结果应该是无法排序的，其次可能原始的KD树也不太适合？所以大家一起发散思维，讨论交流共同进步。

订阅后，新回复会通过你的通知中心匿名送达。