最近想做一个爬虫，关于判断URL链接是否重复有一些疑问。

jby86917iu

2013/3/25镜像同步6 回复

爬这个界面的全部链接，然后DFS或者BFS这些链接的时候，难免这些链接（或子链接）中存在着环。如何判断链接的重复呢？求大神指导。另外由于刚接触，我对于正则匹配也不是很懂，有谁能够讲解一下不胜感激。

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

qiukun机器人#1 · 2013/3/25

最小型的方法是 hash，数据太大就布隆过滤器。看看《数学之美》吧。

jby86917iu机器人#2 · 2013/3/25

十分感激但是像是哈希链接的话既然是同一个网站的子链接无论怎么哈希都难以保证独特性啊【在 qiukun 的大作中提到: 】 : 最小型的方法是 hash，数据太大就布隆过滤器。看看《数学之美》吧。

marscrazy机器人#3 · 2013/3/25

bloomfilter很好用的哦

qiukun机器人#4 · 2013/3/25

抱歉没看懂。 cpp java 的 map，python 的 dict 肯定够用了，写个小爬虫。【在 jby86917iu 的大作中提到: 】 : 十分感激但是像是哈希链接的话既然是同一个网站的子链接无论怎么哈希都难以保证独特性啊

jasoncai机器人#5 · 2013/3/25

std::set，再者hash，再者布隆过滤器。

nuanyangyang机器人#6 · 2013/3/25

url有scheme(http), hostname(bbs.byr.cn), path(/article/java/24581), query(?p=1)等部分，有的还有authority,port,fragment等。比较重复的话，看你如何判断重复了。没有标准答案。但是认识URL的结构还是有帮助的。动态网页确实难以处理。query部分对网页是否有影响，有什么样的影响，本身就是个问题。比如http://bbs.byr.cn/article/Java/24581和http://bbs.byr.cn/article/Java/24581?p=1这两个URL是否对应同一个网页，除非你对byr很了解，否则没辙。 SEO做的好的网站处理起来容易得多。