返回信息流定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是:
1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久
2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~
3.无法登陆时,自动更换ip,这个目前了解比较少,不知道有没有可行的方案。
问题:想请教一下各位,对于思路1,2,3有没有好的建议。另外有没有比较好的解决方案。
这是一条镜像帖。来源:北邮人论坛 / python / #5149同步于 2015/2/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]想请教一下大家都是怎么处理登录/验证码的问题的
byzwl
2015/2/3镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗?
恩恩,代理之前没有用过,我先看看,多谢。
目前看到的情形是的,可能我目前登陆成功后的请求频率还没达到上限。
【 在 vampire24 的大作中提到: 】
: 记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗?
这个思路不错!
【 在 vampire24 (vampire24) 的大作中提到: 】
: 记得有哥们爬微博时用了代理IP的方式,就是先爬一个代理IP库,然后判断要输验证码时换一个IP,python应该提供了使用代理ip的参数。不用自己写吧。爬这个的话最好多线程吧。你的第一条它是根据你的登录次数判断的吗?不是根据你的请求频率吗?
通过『我邮2.0』发布
3比较靠谱
【 在 byzwl (Chung) 的大作中提到: 】
: 定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是:
: 1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久
: 2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~
: ...................
通过『我邮2.0』发布
如果不是中文验证码 有第三方打码平台可以用 但是一般要收费
【 在 byzwl (Chung) 的大作中提到: 】
: 定向的爬取某一网站的数据(数据量比较大),需要登录,当同一ip登录达到一定次数后,目标网站会要求输入验证码。个人目前的解决思路是:
: 1.登陆成功(无需验证码)后,保持连接不主动断开,还未测试,不知道可以保持连接多久
: 2.验证码识别,在网上查了比较多的资料,感觉识别难度非常大,因为是手写体中文~~
: ...................
通过『我邮2.0』发布
嗯嗯,我去查查资料,多谢~
【 在 shuian0930 (shuian0930) 的大作中提到: 】
: 如果不是中文验证码 有第三方打码平台可以用 但是一般要收费
: 通过『我邮2.0』发布
通过『我邮2.0』发布