返回信息流任务:
有大量的爬虫抓取的数据,如何存储。考虑伸缩性,已存网页重新爬取,存储同一个url的所有历史版本。
有什么好的思路建议。或者目前开源项目的应用。
初步考虑采用hdfs。所有的网页组成一个数组序列化后存在一个hdfs文件中,数组中每个元素是以url为唯一标示的对象,对象中将存储该url的历史版本。
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9976同步于 2010/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
如何设计爬虫存储系统
yingxinghuan
2010/5/12镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
现在只有千万级的数量(url数),由于需要不断的重复请求已存的url记录url内容的更新,数量肯定会上升。
对存储的url不同版本也许会做一些操作,比如:历史趋势的比较计算;找出更新频率最快的url等。
【 在 coolfantasy 的大作中提到: 】
: 先评估一下数据量
: --
: Quicksort in Haskell
: ...................
恩,刚刚开始接触,有什么关于hbase的好点的资料不?
目前的问题,存储策略是问题的一部分,如何设计存储的结构也是比较紧要。
多谢大家提供思路。
【 在 heartofsea 的大作中提到: 】
: hbase吧,也是hadoop的一部分。这个软件的原型是google内部用来存储爬虫数据的。
: --