返回信息流爬虫框架的东西接触的不多不是太懂,想咨询下各位大神,想实现一个大规模爬虫集群,比较科学的架构是什么?主要存储内容为浮点数。
查了一些资料,目前考虑的是scrapy+mongodb,不过目前有一些问题还搞不太明白
1.mongodb 对分布式计算是否有支持?网上没有找到比较好的例子或资料啊?
2.对于大量爬虫,一般都是怎么去安排他们的入口逻辑的? (就是比如说有很多个spider,怎么去执行?多线程?多进程?中途爬虫中断如何记录及恢复?)
3.我们的数据可能是每天爬取一次这样,用什么逻辑去获取需要爬取的增量?
望各位大神指点一二
这是一条镜像帖。来源:北邮人论坛 / python / #7835同步于 2015/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python爬虫问题求助
a262620801
2015/7/16镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复