返回信息流楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码,都是在拿到图片的URL后,就直接用requests
requests.get(url)或者urllib
urllib.request.urlretrieve(image_src, 'image.jpg')下载图片了。我是想着既然用selenium可以尽可能地模拟浏览器下载,因为我觉得这样可以让request header更像是浏览器发出的。比如
driver.get(img_url)
with open('image.jpg', 'wb') as file:
file.write(driver.page_source)这三种方式哪种最容易规避反爬虫?
这是一条镜像帖。来源:北邮人论坛 / python / #26334同步于 2023/6/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python selenium下载图片URL时规避反爬虫
mengliluohua
2023/6/17镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
区别不大,requests+代理池会很方便
【 在 mengliluohua (昨夜闲潭梦落花) 的大作中提到: 】
: 楼主用python selenium通过打开浏览器的方式爬网站上的图片。我看网上不少教程、文章、代码,都是在拿到图片的URL后,就直接用requests
: [code=py]
: requests.get(url)
: ...................