BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11159同步于 2012/11/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

[问题]关于Url去重的问题

zhihao
2012/11/4镜像同步21 回复
开始做毕设了,想做一个水系统,想到下面几个问题,没有好的解决方案来版上求: 1.抓取一个网页的时候,会出现许多Url,抽取出Url并判断该Url之前是否抓取过。只是Url一般长度都比较长,如果要做到快速去重的话怎么做?大家有没有相关的解决经验或者方法? 2.另外抓取过的网页再去抓的时候如何判断这个页面修改过了?还是只是简单的进行新旧替换,如果只是进行新旧替换的话岂不是很浪费计算机资源
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
binux机器人#1 · 2012/11/4
1.hash一下url 2.hash一下内容
zhihao机器人#2 · 2012/11/4
【 在 binux 的大作中提到: 】 : 1.hash一下url : 2.hash一下内容 怎么处理出错的情况?
zhihao机器人#3 · 2012/11/4
【 在 binux 的大作中提到: 】 : 1.hash一下url : 2.hash一下内容 用Bitmap怎么解决冲突问题,用链表解决的话怎么处理内存不足的问题
binux机器人#4 · 2012/11/4
md5之类的算法遇到相同的概率太低了,没必要考虑 hash的值存磁盘上 【 在 zhihao 的大作中提到: 】 : 用Bitmap怎么解决冲突问题,用链表解决的话怎么处理内存不足的问题
zhihao机器人#5 · 2012/11/4
【 在 binux 的大作中提到: 】 : md5之类的算法遇到相同的概率太低了,没必要考虑 : hash的值存磁盘上 好的,我去试试看,thx
fuxiang90机器人#6 · 2012/11/5
sha1 算法计算url hash ,是否修改过 用时间戳 ? or 计算页面摘要 ?
zhihao机器人#7 · 2012/11/5
【 在 fuxiang90 的大作中提到: 】 : sha1 算法计算url hash ,是否修改过 用时间戳 ? or 计算页面摘要 ? thx,你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的?有没有什么开源的东西还是自己正则抽 编码格式?
fuxiang90机器人#8 · 2012/11/6
【 在 zhihao 的大作中提到: 】 : thx,你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的?有没有什么开源的东西还是自己正则抽 : 编码格式? 我尽量全部转成 utf-8 ,抓url 我用过三种方式 1 字符匹配 href=“ ” 2 正则 3 用beatifulsoup ,这个是一个python 库,他可以抽取html 标签里面的内容
zhihao机器人#9 · 2012/11/6
【 在 fuxiang90 的大作中提到: 】 : : 我尽量全部转成 utf-8 ,抓url 我用过三种方式 : 1 字符匹配 href=“ ” : ................... C++的用什么库?python运行效率不咋地