BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #31066同步于 2015/8/11
WWWTechnology机器人发帖

如何在内网下利用多台服务器爬取一个限制IP的网站

heamon7
2015/8/11镜像同步0 回复
rt,lz现在想爬取某个网站的部分信息,单次爬取其中一个目录的数据需要请求200万个页面左右,需要登录。 但是该网站貌似对登录用户的单个IP的访问量有限制,现在爬取数据稳定在600页/min;而之前爬取该网站不需要登录的页面时, 爬取速率基本在12k/min左右。 之前我用不同外网IP的六台主机试过分布式爬取,也是稳定在每台600页/min左右,但是买不起那么多主机了,现在把爬虫放在北邮一个实验室的主机上。 因此 想知道怎么样能够在这一台主机上突破IP的限制,实现分布式的爬取?注意是在北邮内网的主机上。 求大家帮忙分析,给点建议。 注:IP池代理貌似行不通,需要登录,登录时对IP有限制
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。