返回信息流开始做毕设了,想做一个水系统,想到下面几个问题,没有好的解决方案来版上求:
1.抓取一个网页的时候,会出现许多Url,抽取出Url并判断该Url之前是否抓取过。只是Url一般长度都比较长,如果要做到快速去重的话怎么做?大家有没有相关的解决经验或者方法?
2.另外抓取过的网页再去抓的时候如何判断这个页面修改过了?还是只是简单的进行新旧替换,如果只是进行新旧替换的话岂不是很浪费计算机资源
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11159同步于 2012/11/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
[问题]关于Url去重的问题
zhihao
2012/11/4镜像同步21 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 binux 的大作中提到: 】
: 1.hash一下url
: 2.hash一下内容
用Bitmap怎么解决冲突问题,用链表解决的话怎么处理内存不足的问题
md5之类的算法遇到相同的概率太低了,没必要考虑
hash的值存磁盘上
【 在 zhihao 的大作中提到: 】
: 用Bitmap怎么解决冲突问题,用链表解决的话怎么处理内存不足的问题
【 在 fuxiang90 的大作中提到: 】
: sha1 算法计算url hash ,是否修改过 用时间戳 ? or 计算页面摘要 ?
thx,你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的?有没有什么开源的东西还是自己正则抽
编码格式?
【 在 zhihao 的大作中提到: 】
: thx,你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的?有没有什么开源的东西还是自己正则抽
: 编码格式?
我尽量全部转成 utf-8 ,抓url 我用过三种方式
1 字符匹配 href=“ ”
2 正则
3 用beatifulsoup ,这个是一个python 库,他可以抽取html 标签里面的内容
【 在 fuxiang90 的大作中提到: 】
:
: 我尽量全部转成 utf-8 ,抓url 我用过三种方式
: 1 字符匹配 href=“ ”
: ...................
C++的用什么库?python运行效率不咋地