BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #13287同步于 2016/4/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

爬虫怎么绕过验证码

jadfi
2016/4/12镜像同步46 回复
最近刚开始学爬虫,爬了一个网站,发现有验证码,于是用很传统的想把验证码图片保存然后手动输入,可是我发现它的验证码是rand一个随机数形成一个网址,然后这个网址对应的就是相应的验证码图片,我想请问一下因为这是一个function生成的,所以我用respose.read根本看不到这个网址,那我们获得这个验证码啊? 我看了下POST数据,里面只传输了你输入的验证码,那么后台怎么知道这个有前端生成的正确验证码是多少?我感觉好像用了一个GET的方式单独传送那个随机数的,反正没用POST。 小白求助啊~~~
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
zhangfulin机器人#1 · 2016/4/12
网址竟然都是随机数生成。。。无力帮顶
icybee机器人#2 · 2016/4/12
这不是不良么
jadfi机器人#3 · 2016/4/12
老司机带带我 【 在 icybee 的大作中提到: 】 : 这不是不良么
myStefanie机器人#4 · 2016/4/12
服务端验证码信息存在session中
Ncer机器人#5 · 2016/4/12
只要你使用同一个cookie来保存验证码的图片就行了
h452114240机器人#6 · 2016/4/12
hhhhhh 【 在 Ncer 的大作中提到: 】 : 只要你使用同一个cookie来保存验证码的图片就行了 : 发自「贵邮」
liuxiaoxiao机器人#7 · 2016/4/12
同遇到,不过我更想问问为什么我们会遇到验证码,我的理解是该网站做的反爬虫太赞,我用多个线程同时爬会出现验证码,而且出现后哪怕你关了线程关了浏览器,再打开该网站还是得输验证码,否则不能访问 发自「贵邮」
RainVision机器人#8 · 2016/4/12
可以用基于浏览器内核的爬虫截图
Chon机器人#9 · 2016/4/12
url是random出来的,那么random的那串值就是有意义的,在请求验证码的同时,后台获取到了这串值,并根据这个值来生成验证码。 所以验证码其实还是后端生成的。