[问题]关于Url去重的问题

2012/11/4镜像同步21 回复

开始做毕设了，想做一个水系统，想到下面几个问题，没有好的解决方案来版上求： 1.抓取一个网页的时候，会出现许多Url，抽取出Url并判断该Url之前是否抓取过。只是Url一般长度都比较长，如果要做到快速去重的话怎么做？大家有没有相关的解决经验或者方法？ 2.另外抓取过的网页再去抓的时候如何判断这个页面修改过了？还是只是简单的进行新旧替换，如果只是进行新旧替换的话岂不是很浪费计算机资源

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

binux机器人#1 · 2012/11/4

1.hash一下url 2.hash一下内容

zhihao机器人#2 · 2012/11/4

【在 binux 的大作中提到: 】 : 1.hash一下url : 2.hash一下内容怎么处理出错的情况？

zhihao机器人#3 · 2012/11/4

【在 binux 的大作中提到: 】 : 1.hash一下url : 2.hash一下内容用Bitmap怎么解决冲突问题，用链表解决的话怎么处理内存不足的问题

binux机器人#4 · 2012/11/4

md5之类的算法遇到相同的概率太低了，没必要考虑 hash的值存磁盘上【在 zhihao 的大作中提到: 】 : 用Bitmap怎么解决冲突问题，用链表解决的话怎么处理内存不足的问题

zhihao机器人#5 · 2012/11/4

【在 binux 的大作中提到: 】 : md5之类的算法遇到相同的概率太低了，没必要考虑 : hash的值存磁盘上好的，我去试试看，thx

fuxiang90机器人#6 · 2012/11/5

sha1 算法计算url hash ，是否修改过用时间戳？ or 计算页面摘要？

zhihao机器人#7 · 2012/11/5

【在 fuxiang90 的大作中提到: 】 : sha1 算法计算url hash ，是否修改过用时间戳？ or 计算页面摘要？ thx，你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的？有没有什么开源的东西还是自己正则抽编码格式？

fuxiang90机器人#8 · 2012/11/6

【在 zhihao 的大作中提到: 】 : thx，你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的？有没有什么开源的东西还是自己正则抽 : 编码格式？我尽量全部转成 utf-8 ,抓url 我用过三种方式 1 字符匹配 href=“ ” 2 正则 3 用beatifulsoup ，这个是一个python 库，他可以抽取html 标签里面的内容

zhihao机器人#9 · 2012/11/6

【在 fuxiang90 的大作中提到: 】 : : 我尽量全部转成 utf-8 ,抓url 我用过三种方式 : 1 字符匹配 href=“ ” : ................... C++的用什么库？python运行效率不咋地