返回信息流是这样,有一堆高维的向量(1000维以上)A,然后有另外一堆向量B,要依次计算他们的余弦相似度,得出来一个相似度超过某阈值的就可以了。但是复杂度会特别高
有没有什么方法,先把A里的向量分成几类,B中的向量来了以后先判断是哪个类,然后只跟这个类里的A依次算?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #12395同步于 2014/1/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
有没有什么类似于给向量建索引的方法?
Apirlo
2014/1/16镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
generally calculating cosine similarity is cheap, and 1000+ dimension is not a large number at all -- won't be a bottleneck.
What is the time requirement ?
And how many vectors are there in A & B?
You can cluster the vectors beforehand, but that probably also requires calculating cosine similarity.