返回信息流写了一个用python3.6+selenium+phantomjs爬取漫画的小程序,获取到了网页中图片的地址,但是想把图片下载到本地的时候出现了HTTPERROR403,求问大神们如何解决?
PS:
直接在浏览器中输入爬到的图片地址也是403错误,但是正常网页浏览过漫画后就可以打开了。感觉是不是headers需要修改啊
通过『我邮2.0』发布
这是一条镜像帖。来源:北邮人论坛 / python / #17396同步于 2017/2/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python爬虫403错误
chenguyue
2017/2/25镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 luostar 的大作中提到: 】
: 403 需要登录验证吧
问题找到了,应该是网页防盗链,headers里面添加了‘Referer',指向源网站就能爬到了~
【 在 yo1995 的大作中提到: 】
: f12看看加载页面时都发生了什么 @caicai617
headers里 添加'Referer',爬虫也要勾心斗角。。。
嗯嗯,没准过一会你又需要问ip被禁如何解决了都是程序员何必相互刁难
【 在 chenguyue 的大作中提到: 】
: headers里 添加'Referer',爬虫也要勾心斗角。。。
添加头部信息试试:
headers={
‘cookies’:‘’,
'user-agent':''
}
data = requests.get(url,headers=headers)