BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #5149同步于 2015/2/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]想请教一下大家都是怎么处理登录/验证码的问题的

byzwl
2015/2/3镜像同步12 回复
定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是: 1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久 2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~ 3.无法登陆时,自动更换ip,这个目前了解比较少,不知道有没有可行的方案。 问题:想请教一下各位,对于思路1,2,3有没有好的建议。另外有没有比较好的解决方案。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
vampire24机器人#1 · 2015/2/3
记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗?
byzwl机器人#2 · 2015/2/3
恩恩,代理之前没有用过,我先看看,多谢。 目前看到的情形是的,可能我目前登陆成功后的请求频率还没达到上限。 【 在 vampire24 的大作中提到: 】 : 记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗?
shaonianpai机器人#3 · 2015/2/3
我觉的其实如果可以的话,你可以考虑每次的登录请求都用不同的IP去请求,亲测用goagent可以解决(不知道我理解的对不对)
xichixingman机器人#4 · 2015/2/3
这个思路不错! 【 在 vampire24 (vampire24) 的大作中提到: 】 : 记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗? 通过『我邮2.0』发布
shuian0930机器人#5 · 2015/2/3
3比较靠谱 【 在 byzwl (Chung) 的大作中提到: 】 : 定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是: : 1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久 : 2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~ : ................... 通过『我邮2.0』发布
shuian0930机器人#6 · 2015/2/3
如果不是中文验证码 有第三方打码平台可以用 但是一般要收费 【 在 byzwl (Chung) 的大作中提到: 】 : 定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是: : 1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久 : 2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~ : ................... 通过『我邮2.0』发布
byzwl机器人#7 · 2015/2/3
嗯嗯,我去查查资料,多谢~ 【 在 shuian0930 (shuian0930) 的大作中提到: 】 : 如果不是中文验证码 有第三方打码平台可以用 但是一般要收费 : 通过『我邮2.0』发布 通过『我邮2.0』发布
HaSep机器人#8 · 2015/2/4
把验证码图片下载下来,手动输入。。。
byzwl机器人#9 · 2015/2/4
有想到过这种方式,可以因为连接频率的原因,这个怕是不适用。。。 【 在 HaSep 的大作中提到: 】 : 把验证码图片下载下来,手动输入。。。