返回信息流登陆界面是post请求方式,但是要爬取网页的信息的请求方式是get,每爬取几十个网页就会自动跳转到登陆界面,然后就获取不到所要的信息,这个问题有大神解决的吗?求指导啊
这是一条镜像帖。来源:北邮人论坛 / python / #6188同步于 2015/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python进行模拟登陆爬取网页信息
chulianrui88
2015/4/10镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
现在需要登录的网页都支持SSO方式,先模拟登录,保存cookie,之后就会自动登录了。Python里用urllib2库新建urlopen,携带缓存提交表单
不了解lz的点
1.要是每次爬取数据都post请求的话,肯定要用cookie啊
2.要是因为cookie被禁了,不知道有什么好办法没,我的解决方法就是设置随机的等待时间