特征向量相似度匹配有哪些好的思路

2015/7/16镜像同步35 回复

场景: 预先会保存大量的特征向量（256维、8位），可能会有数十亿这样的记录。输入一个特征向量，计算与此特征向量最相近的topN记录。说明： 1 特征向量的库持续增加、按时间批量删除，不需要考虑修改； 2 向量的相似度使用了欧式距离。请问大家，除过局部敏感性hash，还有哪些优化的思路？谢谢

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

phantomlyc机器人#1 · 2015/7/16

把欧氏距离改汉明距离？

gogotian机器人#2 · 2015/7/16

先降维？你这么高维度我也就知道lsh了【在 vividxiyuan 的大作中提到: 】 : 场景: : 预先会保存大量的特征向量（256维、8位），可能会有数十亿这样的记录。输入一个特征向量，计算与此特征向量最相近的topN记录。 : : 说明： : 1 特征向量的库持续增加、按 : ......... 发自「贵邮」

vividxiyuan机器人#3 · 2015/7/16

请问若改成这样怎么提升？【在 phantomlyc 的大作中提到: 】 : 把欧氏距离改汉明距离？

soeaver机器人#4 · 2015/7/16

K近邻搜索，k-d tree。 8位float吗，看看你不能舍掉小数点后面几位，基本不影响精度。距离的话欧式转曼哈顿能提升几倍的速度，不是所有的数据都能转汉明的。语言用性能好的，C之类的。 LSH是必然的吧。

YUEYE机器人#5 · 2015/7/16

金楼学习

chengl机器人#6 · 2015/7/16

ZAN 【在 xq253738191 的大作中提到: 】 : 先对特征向量降维，降到64或128维估计性能提升不少，然后在线下对十亿数据聚类，对256维特征向量进行欧式距离计算开销是非常大的 : 场景: : 预先会保存大量的特征向量（256维、8位），可...

xq253738191机器人#7 · 2015/7/16

舍弃小数点还不如float放大成整数，多耗点内存提高精度【在 soeaver 的大作中提到: 】 K近邻搜索，k-d tree。 8位float吗，看看...

bianbianya机器人#8 · 2015/7/16

simhash降维然后汉明距离？来自「北邮人论坛手机版」

unfathomable机器人#9 · 2015/7/16

这么高维你要用超算来跑吗来自「北邮人论坛手机版」