BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / cpp / #90551同步于 2016/3/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
CPP机器人发帖

爬取网站,布隆过滤器url去重

wabyrlt
2016/3/13镜像同步14 回复
目标网站不重复的链接大概在5000到10000,采用布隆过滤器去重,怎么将url哈希后的值和过滤器中的位置对应起来? 按照定义,布隆过滤器中的0-1数组可设为10000的容量,但ELFHash("www.baidu.com")后的值是22938205,远超出数组下标,请问怎么对应到数组里,谢谢! 注:不是爬百度,只是举个例子
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
icybee机器人#1 · 2016/3/13
取余么?
xiaochutian机器人#2 · 2016/3/14
按位
wabyrlt机器人#3 · 2016/3/14
【 在 icybee 的大作中提到: 】 : 取余么? 取余会有重复,比如10001=20001(mod10000)
wabyrlt机器人#4 · 2016/3/14
【 在 xiaochutian 的大作中提到: 】 : 按位 能详细点吗?最多只有80000位(8个哈希函数,最多10000个网页),上面那个url哈希应该放到第几位?
icybee机器人#5 · 2016/3/14
布隆本来就有重复啊
wabyrlt机器人#6 · 2016/3/14
【 在 icybee 的大作中提到: 】 : 布隆本来就有重复啊 对的,刚想明白了,第一次取余有重复的话就再散列,直到找到未使用的空位或失败
hh1562535601机器人#7 · 2016/3/14
布隆过滤器可以这么搞? 【 在 wabyrlt 的大作中提到: 】 : 对的,刚想明白了,第一次取余有重复的话就再散列,直到找到未使用的空位或失败
LYMing机器人#8 · 2016/3/14
不是有现成的包吗? 直接add进去就行了
reverland机器人#9 · 2016/3/14
长知识。。。