返回信息流场景:
预先会保存大量的特征向量(256维、8位),可能会有数十亿这样的记录。输入一个特征向量,计算与此特 征向量最相近的topN记录。
说明:
1 特征向量的库持续增加、按时间批量删除,不需要考虑修改;
2 向量的相似度使用了欧式距离。
请问大家,除过局部敏感性hash,还有哪些优化的思路?谢谢
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #16528同步于 2015/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
特征向量相似度匹配有哪些好的思路
vividxiyuan
2015/7/16镜像同步35 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
先降维?
你这么高维度 我也就知道lsh了
【 在 vividxiyuan 的大作中提到: 】
: 场景:
: 预先会保存大量的特征向量(256维、8位),可能会有数十亿这样的记录。输入一个特征向量,计算与此特 征向量最相近的topN记录。
:
: 说明:
: 1 特征向量的库持续增加、按
: .........
发自「贵邮」
K近邻搜索,k-d tree。
8位float吗,看看你不能舍掉小数点后面几位,基本不影响精度。
距离的话欧式转曼哈顿能提升几倍的速度,不是所有的数据都能转汉明的。
语言用性能好的,C之类的。
LSH是必然的吧。
ZAN
【 在 xq253738191 的大作中提到: 】
: 先对特征向量降维,降到64或128维估计性能提升不少,然后在线下对十亿数据聚类,对256维特征向量进行欧式距离计算开销是非常大的
: 场景:
: 预先会保存大量的特征向量(256维、8位),可...
舍弃小数点还不如float放大成整数,多耗点内存提高精度
【 在 soeaver 的大作中提到: 】
K近邻搜索,k-d tree。
8位float吗,看看...