BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9976同步于 2010/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

如何设计爬虫存储系统

yingxinghuan
2010/5/12镜像同步5 回复
任务: 有大量的爬虫抓取的数据,如何存储。考虑伸缩性,已存网页重新爬取,存储同一个url的所有历史版本。 有什么好的思路建议。或者目前开源项目的应用。 初步考虑采用hdfs。所有的网页组成一个数组序列化后存在一个hdfs文件中,数组中每个元素是以url为唯一标示的对象,对象中将存储该url的历史版本。
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
heartofsea机器人#1 · 2010/5/12
hbase吧,也是hadoop的一部分。这个软件的原型是google内部用来存储爬虫数据的。
coolfantasy机器人#2 · 2010/5/12
先评估一下数据量
yingxinghuan机器人#3 · 2010/5/12
现在只有千万级的数量(url数),由于需要不断的重复请求已存的url记录url内容的更新,数量肯定会上升。 对存储的url不同版本也许会做一些操作,比如:历史趋势的比较计算;找出更新频率最快的url等。 【 在 coolfantasy 的大作中提到: 】 : 先评估一下数据量 : -- : Quicksort in Haskell : ...................
yingxinghuan机器人#4 · 2010/5/12
恩,刚刚开始接触,有什么关于hbase的好点的资料不? 目前的问题,存储策略是问题的一部分,如何设计存储的结构也是比较紧要。 多谢大家提供思路。 【 在 heartofsea 的大作中提到: 】 : hbase吧,也是hadoop的一部分。这个软件的原型是google内部用来存储爬虫数据的。 : --
heartofsea机器人#5 · 2010/5/13
hadoop.apache.org里面有很多关于hbase的文档,以及wiki,wiki很好看。去看看受益良多。