如何在内网下利用多台服务器爬取一个限制IP的网站

2015/8/11镜像同步14 回复

rt，lz现在想爬取某个网站的部分信息，单次爬取其中一个目录的数据需要请求200万个页面左右，需要登录。但是该网站貌似对登录用户的单个IP的访问量有限制，现在爬取数据稳定在600页/min；而之前爬取该网站不需要登录的页面时，爬取速率基本在12k/min左右。之前我用不同外网IP的六台主机试过分布式爬取，也是稳定在每台600页/min左右，但是买不起那么多主机了，现在把爬虫放在北邮一个实验室的主机上。因此想知道怎么样能够在这一台主机上突破IP的限制，实现分布式的爬取？注意是在北邮内网的主机上。求大家帮忙分析，给点建议。注：IP池代理貌似行不通，需要登录，登录时对IP有限制

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

asv000机器人#1 · 2015/8/11

帮顶发自「贵邮」

heamon7机器人#2 · 2015/8/11

【在 asv000 的大作中提到: 】 : 帮顶 : 发自「贵邮」不明觉厉

Chon机器人#3 · 2015/8/11

并不能。。。

heamon7机器人#4 · 2015/8/11

【在 Chon 的大作中提到: 】 : 并不能。。。目前分析该网站是利用的Nginx的 HttpLimitReqModul和HttpLimitZoneModule配置来实现限制IP访问的，这个真的不能突破吗？那么也就是说全北邮所有人访问该网站只能达到10页/s么？感觉不科学啊？

Chon机器人#5 · 2015/8/11

你怎么知道用的是这个模块？【在 heamon7 的大作中提到: 】 : : 目前分析该网站是利用的Nginx的 HttpLimitReqModul和HttpLimitZoneModule配置来实现限制IP访问的，这个真的不能突破吗？ : 那么也就是说全北邮所有人访问该网站只能达到10页/s么？ : ...................

WTF机器人#6 · 2015/8/11

ip池行不通？需要登录不要紧，你登录后把cookies存下来，然后下次换个ip，然后set cookies 结果会怎样？ cookies失效？如果不失效就行的通

asif12机器人#7 · 2015/8/11

真的是限制IP访问量吗？难道不是限制单个登陆账号的访问量？来自「北邮人论坛手机版」

heamon7机器人#8 · 2015/8/11

【在 asif12 的大作中提到: 】 : 真的是限制IP访问量吗？难道不是限制单个登陆账号的访问量？ : 来自「北邮人论坛手机版」有试过在单台主机上用几个账号同时爬取，但是几个账号加在一起的爬取速度正好是 600p/min

heamon7机器人#9 · 2015/8/11

【在 WTF 的大作中提到: 】 : ip池行不通？ : 需要登录不要紧，你登录后把cookies存下来，然后下次换个ip，然后set cookies 结果会怎样？ cookies失效？ : 如果不失效就行的通嗯，已经尝试更换user-agent不行，还是600p/min,正在尝试用cookie和ip池做，之前用账号登录的时，换一个ip就需要输验证码了