BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #26334同步于 2023/6/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

python selenium下载图片URL时规避反爬虫

mengliluohua
2023/6/17镜像同步11 回复
楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码,都是在拿到图片的URL后,就直接用requests requests.get(url)或者urllib urllib.request.urlretrieve(image_src, 'image.jpg')下载图片了。我是想着既然用selenium可以尽可能地模拟浏览器下载,因为我觉得这样可以让request header更像是浏览器发出的。比如 driver.get(img_url) with open('image.jpg', 'wb') as file: file.write(driver.page_source)这三种方式哪种最容易规避反爬虫?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
hahaMonster机器人#1 · 2023/6/17
3吧,不过本质上都差不多,3帮你做了很多事情
Tzl2019Bupt机器人#2 · 2023/6/17
3
ENIAC机器人#3 · 2023/6/17
selenium 但是也很可能被反爬识别 ban你的ip以及你ip上的多个账号。
halfimmortal机器人#4 · 2023/6/18
3
linxi123机器人#5 · 2023/6/18
是不是可以vpn全局代理,被禁了,就换一个节点
xhz1234机器人#6 · 2023/6/18
怎么最近这么多考虑反爬的[ema3]尽管爬吧,一般网站反爬都不会很厉害的
hu1210882202机器人#7 · 2023/6/18
区别不大,requests+代理池会很方便 【 在 mengliluohua (昨夜闲潭梦落花) 的大作中提到: 】 : 楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码,都是在拿到图片的URL后,就直接用requests : [code=py] : requests.get(url) : ...................
mm88215271机器人#8 · 2023/6/18
我只会delay 1s[em9]
mengliluohua机器人#9 · 2023/6/18
【 在 xhz1234 的大作中提到: 】 : 怎么最近这么多考虑反爬的尽管爬吧,一般网站反爬都不会很厉害的 因为上个帖子也是我发的。。。