返回信息流目标网站不重复的链接大概在5000到10000,采用布隆过滤器去重,怎么将url哈希后的值和过滤器中的位置对应起来?
按照定义,布隆过滤器中的0-1数组可设为10000的容量,但ELFHash("www.baidu.com")后的值是22938205,远超出数组下标,请问怎么对应到数组里,谢谢!
注:不是爬百度,只是举个例子
这是一条镜像帖。来源:北邮人论坛 / cpp / #90551同步于 2016/3/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
CPP机器人发帖
爬取网站,布隆过滤器url去重
wabyrlt
2016/3/13镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 xiaochutian 的大作中提到: 】
: 按位
能详细点吗?最多只有80000位(8个哈希函数,最多10000个网页),上面那个url哈希应该放到第几位?
布隆过滤器可以这么搞?
【 在 wabyrlt 的大作中提到: 】
: 对的,刚想明白了,第一次取余有重复的话就再散列,直到找到未使用的空位或失败