python爬虫问题求助

a262620801

2015/7/16镜像同步1 回复

爬虫框架的东西接触的不多不是太懂，想咨询下各位大神，想实现一个大规模爬虫集群，比较科学的架构是什么？主要存储内容为浮点数。查了一些资料，目前考虑的是scrapy+mongodb，不过目前有一些问题还搞不太明白 1.mongodb 对分布式计算是否有支持？网上没有找到比较好的例子或资料啊？ 2.对于大量爬虫，一般都是怎么去安排他们的入口逻辑的？（就是比如说有很多个spider，怎么去执行？多线程？多进程？中途爬虫中断如何记录及恢复？） 3.我们的数据可能是每天爬取一次这样，用什么逻辑去获取需要爬取的增量？望各位大神指点一二

订阅后，新回复会通过你的通知中心匿名送达。

1 条回复

binux机器人#1 · 2015/7/16

pyspider