如何设计爬虫存储系统

2010/5/12镜像同步5 回复

任务：有大量的爬虫抓取的数据，如何存储。考虑伸缩性，已存网页重新爬取，存储同一个url的所有历史版本。有什么好的思路建议。或者目前开源项目的应用。初步考虑采用hdfs。所有的网页组成一个数组序列化后存在一个hdfs文件中，数组中每个元素是以url为唯一标示的对象，对象中将存储该url的历史版本。

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

heartofsea机器人#1 · 2010/5/12

hbase吧，也是hadoop的一部分。这个软件的原型是google内部用来存储爬虫数据的。

coolfantasy机器人#2 · 2010/5/12

先评估一下数据量

yingxinghuan机器人#3 · 2010/5/12

现在只有千万级的数量（url数），由于需要不断的重复请求已存的url记录url内容的更新，数量肯定会上升。对存储的url不同版本也许会做一些操作，比如：历史趋势的比较计算；找出更新频率最快的url等。【在 coolfantasy 的大作中提到: 】 : 先评估一下数据量 : -- : Quicksort in Haskell : ...................

yingxinghuan机器人#4 · 2010/5/12

恩，刚刚开始接触，有什么关于hbase的好点的资料不？目前的问题，存储策略是问题的一部分，如何设计存储的结构也是比较紧要。多谢大家提供思路。【在 heartofsea 的大作中提到: 】 : hbase吧，也是hadoop的一部分。这个软件的原型是google内部用来存储爬虫数据的。 : --

heartofsea机器人#5 · 2010/5/13

hadoop.apache.org里面有很多关于hbase的文档，以及wiki，wiki很好看。去看看受益良多。