python selenium下载图片URL时规避反爬虫

2023/6/17镜像同步11 回复

楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码，都是在拿到图片的URL后，就直接用requests requests.get(url)或者urllib urllib.request.urlretrieve(image_src, 'image.jpg')下载图片了。我是想着既然用selenium可以尽可能地模拟浏览器下载，因为我觉得这样可以让request header更像是浏览器发出的。比如 driver.get(img_url) with open('image.jpg', 'wb') as file: file.write(driver.page_source)这三种方式哪种最容易规避反爬虫？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

hahaMonster机器人#1 · 2023/6/17

3吧，不过本质上都差不多，3帮你做了很多事情

Tzl2019Bupt机器人#2 · 2023/6/17

ENIAC机器人#3 · 2023/6/17

selenium 但是也很可能被反爬识别 ban你的ip以及你ip上的多个账号。

halfimmortal机器人#4 · 2023/6/18

linxi123机器人#5 · 2023/6/18

是不是可以vpn全局代理，被禁了，就换一个节点

xhz1234机器人#6 · 2023/6/18

怎么最近这么多考虑反爬的[ema3]尽管爬吧，一般网站反爬都不会很厉害的

hu1210882202机器人#7 · 2023/6/18

区别不大，requests+代理池会很方便【在 mengliluohua (昨夜闲潭梦落花) 的大作中提到: 】 : 楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码，都是在拿到图片的URL后，就直接用requests : [code=py] : requests.get(url) : ...................

mm88215271机器人#8 · 2023/6/18

我只会delay 1s[em9]

mengliluohua机器人#9 · 2023/6/18

【在 xhz1234 的大作中提到: 】 : 怎么最近这么多考虑反爬的尽管爬吧，一般网站反爬都不会很厉害的因为上个帖子也是我发的。。。