返回信息流最近在爬取网站,可是爬取多了就被网站封IP了,要输入验证码什么的,请问大家有没有什么比较快的代理服务器或者是大家是怎么解决这个问题的?我知道可以设置爬取时间间隔,但我不想影响爬取速度。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13347同步于 2014/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]可用的爬虫代理
zhumeng2010
2014/5/12镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
给你支个招:去搜索代理服务器,然后可以搜索到那种许多免费代理列表,爬下来,然后有个验证,看看哪些可用的,过滤之后,形成一个可用列表,在爬虫里面轮换调用这些个代理即可
怎么验证?是自己一个个的试么?
【 在 michael2008 的大作中提到: 】
: 给你支个招:去搜索代理服务器,然后可以搜索到那种许多免费代理列表,爬下来,然后有个验证,看看哪些可用的,过滤之后,形成一个可用列表,在爬虫里面轮换调用这些个代理即可
自动测试,写个几行字的代码就完成了吧:定义HTTP连接,然后设置一个选择的代理,尝试连接百度之类的网站,如果200 OK,就记录这个代理是可用的。这样下来把找到的代理都for each一遍之后,就完成验证了吧。
其实你也可以在爬虫工作线程里面try catch,或者timeout之后更换一个代理,前者单独验证的方式好些。
【 在 zhumeng2010 的大作中提到: 】
: 怎么验证?是自己一个个的试么?
好的,谢谢。我之前只是把代理服务器爬了下来,并没有测试就用了,看来我得先测试再用啊[ema11]
【 在 michael2008 的大作中提到: 】
: 自动测试,写个几行字的代码就完成了吧:定义HTTP连接,然后设置一个选择的代理,尝试连接百度之类的网站,如果200 OK,就记录这个代理是可用的。这样下来把找到的代理都for each一遍之后,就完成验证了吧。
: 其实你也可以在爬虫工作线程里面try catch,或者timeout之后更换一个代理,前者单独验证的方式好些。
: