BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #24581同步于 2013/3/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

最近想做一个爬虫,关于判断URL链接是否重复有一些疑问。

jby86917iu
2013/3/25镜像同步6 回复
爬这个界面的全部链接,然后DFS或者BFS这些链接的时候,难免这些链接(或子链接)中存在着环。如何判断链接的重复呢?求大神指导。 另外 由于刚接触,我对于正则匹配也不是很懂,有谁能够讲解一下 不胜感激。
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
qiukun机器人#1 · 2013/3/25
最小型的方法是 hash,数据太大就布隆过滤器。看看《数学之美》吧。
jby86917iu机器人#2 · 2013/3/25
十分感激 但是像是哈希链接的话 既然是同一个网站的子链接 无论怎么哈希 都难以保证独特性啊 【 在 qiukun 的大作中提到: 】 : 最小型的方法是 hash,数据太大就布隆过滤器。看看《数学之美》吧。
marscrazy机器人#3 · 2013/3/25
bloomfilter很好用的哦
qiukun机器人#4 · 2013/3/25
抱歉没看懂。 cpp java 的 map,python 的 dict 肯定够用了,写个小爬虫。 【 在 jby86917iu 的大作中提到: 】 : 十分感激 但是像是哈希链接的话 既然是同一个网站的子链接 无论怎么哈希 都难以保证独特性啊
jasoncai机器人#5 · 2013/3/25
std::set,再者hash,再者布隆过滤器。
nuanyangyang机器人#6 · 2013/3/25
url有scheme(http), hostname(bbs.byr.cn), path(/article/java/24581), query(?p=1)等部分,有的还有authority,port,fragment等。 比较重复的话,看你如何判断重复了。没有标准答案。但是认识URL的结构还是有帮助的。 动态网页确实难以处理。query部分对网页是否有影响,有什么样的影响,本身就是个问题。比如http://bbs.byr.cn/article/Java/24581和http://bbs.byr.cn/article/Java/24581?p=1这两个URL是否对应同一个网页,除非你对byr很了解,否则没辙。 SEO做的好的网站处理起来容易得多。