返回信息流rt,lz现在想爬取某个网站的部分信息,单次爬取其中一个目录的数据需要请求200万个页面左右,需要登录。
但是该网站貌似对登录用户的单个IP的访问量有限制,现在爬取数据稳定在600页/min;而之前爬取该网站不需要登录的页面时,
爬取速率基本在12k/min左右。
之前我用不同外网IP的六台主机试过分布式爬取,也是稳定在每台600页/min左右,但是买不起那么多主机了,现在把爬虫放在北邮一个实验室的主机上。
因此 想知道怎么样能够在这一台主机上突破IP的限制,实现分布式的爬取?注意是在北邮内网的主机上。
求大家帮忙分析,给点建议。
注:IP池代理貌似行不通,需要登录,登录时对IP有限制
这是一条镜像帖。来源:北邮人论坛 / python / #8093同步于 2015/8/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
如何在内网下利用多台服务器爬取一个限制IP的网站
heamon7
2015/8/11镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 Chon 的大作中提到: 】
: 并不能。。。
目前分析该网站是利用的Nginx的 HttpLimitReqModul和HttpLimitZoneModule配置 来实现限制IP访问的,这个真的不能突破吗?
那么也就是说全北邮所有人访问该网站只能达到10页/s么?
感觉不科学啊?
你怎么知道用的是这个模块?
【 在 heamon7 的大作中提到: 】
:
: 目前分析该网站是利用的Nginx的 HttpLimitReqModul和HttpLimitZoneModule配置 来实现限制IP访问的,这个真的不能突破吗?
: 那么也就是说全北邮所有人访问该网站只能达到10页/s么?
: ...................
ip池行不通?
需要登录不要紧,你登录后把cookies存下来,然后下次换个ip,然后set cookies 结果会怎样? cookies失效?
如果不失效就行的通
【 在 asif12 的大作中提到: 】
: 真的是限制IP访问量吗?难道不是限制单个登陆账号的访问量?
: 来自「北邮人论坛手机版」
有试过在单台主机上用几个账号同时爬取,但是几个账号加在一起的爬取速度正好是 600p/min
【 在 WTF 的大作中提到: 】
: ip池行不通?
: 需要登录不要紧,你登录后把cookies存下来,然后下次换个ip,然后set cookies 结果会怎样? cookies失效?
: 如果不失效就行的通
嗯,已经尝试更换user-agent不行,还是600p/min,正在尝试用cookie和ip池做,之前用账号登录的时,换一个ip就需要输验证码了