BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #13525同步于 2016/4/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

多进程爬虫速度问题

penny11
2016/4/19镜像同步6 回复
还有个问题是:(基本信息:服务器逻辑核24个,进程池10,爬的网站大概10位数) 用multiprocessing去爬网站,总是会过一段时间,大概1k就停下来或者速度变得很慢。在run中能打印出每个进程的信息, 1:能排除多进程写的不对的错误吗? 2:这种速度慢下来是哪方面原因啊?应该怎么优化? 3:多进程怎么写文件Log啊。。。 apache服务器
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
ztinpn机器人#1 · 2016/4/19
10位数?
penny11机器人#2 · 2016/4/19
【 在 ztinpn 的大作中提到: 】 : 10位数? 就是大概要检测10 000 000 000个网址
y120141447机器人#3 · 2016/5/6
。。。。这么多个网站,你从哪里弄来的。。。还是这么多的网页?
nuanyangyang机器人#4 · 2016/5/6
和apache有什么关系?
fireling机器人#5 · 2016/5/19
和apache有什么关系?
a1019866208机器人#6 · 2016/5/22
试试协程?[ema0] 发自「贵邮」