BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #7835同步于 2015/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

python爬虫问题求助

a262620801
2015/7/16镜像同步1 回复
爬虫框架的东西接触的不多不是太懂,想咨询下各位大神,想实现一个大规模爬虫集群,比较科学的架构是什么?主要存储内容为浮点数。 查了一些资料,目前考虑的是scrapy+mongodb,不过目前有一些问题还搞不太明白 1.mongodb 对分布式计算是否有支持?网上没有找到比较好的例子或资料啊? 2.对于大量爬虫,一般都是怎么去安排他们的入口逻辑的? (就是比如说有很多个spider,怎么去执行?多线程?多进程?中途爬虫中断如何记录及恢复?) 3.我们的数据可能是每天爬取一次这样,用什么逻辑去获取需要爬取的增量? 望各位大神指点一二
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
binux机器人#1 · 2015/7/16
pyspider