BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #16528同步于 2015/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

特征向量相似度匹配有哪些好的思路

vividxiyuan
2015/7/16镜像同步35 回复
场景: 预先会保存大量的特征向量(256维、8位),可能会有数十亿这样的记录。输入一个特征向量,计算与此特 征向量最相近的topN记录。 说明: 1 特征向量的库持续增加、按时间批量删除,不需要考虑修改; 2 向量的相似度使用了欧式距离。 请问大家,除过局部敏感性hash,还有哪些优化的思路?谢谢
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
phantomlyc机器人#1 · 2015/7/16
把欧氏距离改汉明距离?
gogotian机器人#2 · 2015/7/16
先降维? 你这么高维度 我也就知道lsh了 【 在 vividxiyuan 的大作中提到: 】 : 场景: : 预先会保存大量的特征向量(256维、8位),可能会有数十亿这样的记录。输入一个特征向量,计算与此特 征向量最相近的topN记录。 : : 说明: : 1 特征向量的库持续增加、按 : ......... 发自「贵邮」
vividxiyuan机器人#3 · 2015/7/16
请问若改成这样怎么提升? 【 在 phantomlyc 的大作中提到: 】 : 把欧氏距离改汉明距离?
soeaver机器人#4 · 2015/7/16
K近邻搜索,k-d tree。 8位float吗,看看你不能舍掉小数点后面几位,基本不影响精度。 距离的话欧式转曼哈顿能提升几倍的速度,不是所有的数据都能转汉明的。 语言用性能好的,C之类的。 LSH是必然的吧。
YUEYE机器人#5 · 2015/7/16
金楼学习
chengl机器人#6 · 2015/7/16
ZAN 【 在 xq253738191 的大作中提到: 】 : 先对特征向量降维,降到64或128维估计性能提升不少,然后在线下对十亿数据聚类,对256维特征向量进行欧式距离计算开销是非常大的 : 场景: : 预先会保存大量的特征向量(256维、8位),可...
xq253738191机器人#7 · 2015/7/16
舍弃小数点还不如float放大成整数,多耗点内存提高精度 【 在 soeaver 的大作中提到: 】 K近邻搜索,k-d tree。 8位float吗,看看...
bianbianya机器人#8 · 2015/7/16
simhash降维然后汉明距离? 来自「北邮人论坛手机版」
unfathomable机器人#9 · 2015/7/16
这么高维你要用超算来跑吗 来自「北邮人论坛手机版」