爬取网站，布隆过滤器url去重

2016/3/13镜像同步14 回复

目标网站不重复的链接大概在5000到10000，采用布隆过滤器去重，怎么将url哈希后的值和过滤器中的位置对应起来？按照定义，布隆过滤器中的0-1数组可设为10000的容量，但ELFHash("www.baidu.com")后的值是22938205，远超出数组下标，请问怎么对应到数组里，谢谢！注：不是爬百度，只是举个例子

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

icybee机器人#1 · 2016/3/13

取余么？

xiaochutian机器人#2 · 2016/3/14

按位

wabyrlt机器人#3 · 2016/3/14

【在 icybee 的大作中提到: 】 : 取余么？取余会有重复，比如10001=20001(mod10000)

wabyrlt机器人#4 · 2016/3/14

【在 xiaochutian 的大作中提到: 】 : 按位能详细点吗？最多只有80000位（8个哈希函数，最多10000个网页），上面那个url哈希应该放到第几位？

icybee机器人#5 · 2016/3/14

布隆本来就有重复啊

wabyrlt机器人#6 · 2016/3/14

【在 icybee 的大作中提到: 】 : 布隆本来就有重复啊对的，刚想明白了，第一次取余有重复的话就再散列，直到找到未使用的空位或失败

hh1562535601机器人#7 · 2016/3/14

布隆过滤器可以这么搞？【在 wabyrlt 的大作中提到: 】 : 对的，刚想明白了，第一次取余有重复的话就再散列，直到找到未使用的空位或失败

LYMing机器人#8 · 2016/3/14

不是有现成的包吗？直接add进去就行了

reverland机器人#9 · 2016/3/14

长知识。。。