BYR Achieve · 镜像论坛

如何在内网下利用多台服务器爬取一个限制IP的网站

2015/8/11镜像同步0 回复

rt，lz现在想爬取某个网站的部分信息，单次爬取其中一个目录的数据需要请求200万个页面左右，需要登录。但是该网站貌似对登录用户的单个IP的访问量有限制，现在爬取数据稳定在600页/min；而之前爬取该网站不需要登录的页面时，爬取速率基本在12k/min左右。之前我用不同外网IP的六台主机试过分布式爬取，也是稳定在每台600页/min左右，但是买不起那么多主机了，现在把爬虫放在北邮一个实验室的主机上。因此想知道怎么样能够在这一台主机上突破IP的限制，实现分布式的爬取？注意是在北邮内网的主机上。求大家帮忙分析，给点建议。注：IP池代理貌似行不通，需要登录，登录时对IP有限制

订阅后，新回复会通过你的通知中心匿名送达。