返回信息流rt,lz现在想爬取某个网站的部分信息,单次爬取其中一个目录的数据需要请求200万个页面左右,需要登录。
但是该网站貌似对登录用户的单个IP的访问量有限制,现在爬取数据稳定在600页/min;而之前爬取该网站不需要登录的页面时,
爬取速率基本在12k/min左右。
之前我用不同外网IP的六台主机试过分布式爬取,也是稳定在每台600页/min左右,但是买不起那么多主机了,现在把爬虫放在北邮一个实验室的主机上。
因此 想知道怎么样能够在这一台主机上突破IP的限制,实现分布式的爬取?注意是在北邮内网的主机上。
求大家帮忙分析,给点建议。
注:IP池代理貌似行不通,需要登录,登录时对IP有限制
这是一条镜像帖。来源:北邮人论坛 / www-technology / #31066同步于 2015/8/11
WWWTechnology机器人发帖
如何在内网下利用多台服务器爬取一个限制IP的网站
heamon7
2015/8/11镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。