返回信息流楼主准备用一个爬虫抓取网站的信息,为了使request尽可能像真的,并且因为不着急,可以慢慢抓取,我准备让爬虫直接用selenium打开chrome浏览器抓取,我觉得这样可以让request更像真的,尤其是user agent和header啥的,更不容易被反爬虫。我在考虑是否应该开无头模式(headless),也就是不真正打开浏览器:
chrome_options.add_argument("--headless")
请问下开无头模式和不开无头模式,哪个更容易规避反爬虫?
这是一条镜像帖。来源:北邮人论坛 / python / #26320同步于 2023/6/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
爬虫通过浏览器抓取,是否开无头模式
mengliluohua
2023/6/13镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
根据我之前使用selenium的经验,加不加headless的唯一区别就是有没有浏览器ui,其它方面无区别(包括request,页面渲染等),也就是说无论开不开无头模式,服务器都会认为这个request是真的,selenium被反爬虫一般是从request发送频率入手的,如果发送频率过快,不像手动操作的,会被认为是爬虫,很可能被封ip。(顺便提一嘴,加headless的话不好debug,不知道哪一步出错太折磨了)
【 在 Wu1314 的大作中提到: 】
: bd 同问 最近linux下设置定时任务爬取数据 发现ip被禁了 请问有无啥解决办法
我也是初学者,抛砖引玉地说下我的理解吧。不知道你着急抓取吗,我是因为完全不着急抓取,就用的如下方法:
一是用selenium打开浏览器爬,我觉得用浏览器发request这样跟真人用浏览器发的request应该是一样的。我是这么想的,不知道对不对。
二是我因为完全不着急,我让我的pvthon 脚本打开网页停顿个随机数秒,然后再下载图片,每下载一张就停顿随机数秒,再下载另一张,以此类推。我觉得这样应该不会被反爬虫注意吧
不知道自己想的对不对,求广大校友指正
【 在 qiaolei 的大作中提到: 】
: 根据我之前使用selenium的经验,加不加headless的唯一区别就是有没有浏览器ui,其它方面无区别(包括request,页面渲染等),也就是说无论开不开无头模式,服务器都会认为这个request是真的,selenium被反爬虫一般是从request发送频率入手的,如果发送频率过快,不像手动操作的,会被认为是爬虫,很可能被封ip。(顺便提一嘴,加headless的话不好debug,不知道哪一步出错太折磨了)
我因为不着急爬取,并且如果被封ip更麻烦,我打算完全模仿人类阅读网页,就是打开网页停顿个随机数秒,然后再下载图片,每下载一张就停顿随机数秒,再下载另一张,以此类推。这样是不是就没啥漏洞了?
【 在 YWJ0102 的大作中提到: 】
: 有些公司的前端代码是能够识别出来你到底是真实用户打开的浏览器,还是使用selenium打开浏览器的,这个还是要注意点
selenium打开浏览器发的request的header和user agent和人类浏览发的request的一样吗?
是不是那些网站的前端还用JavaScript读环境信息、Canvas指纹、WebRTC指纹来识别是不是爬虫?
比如简单追踪一个鼠标运动轨迹和点击精确度
【 在 mengliluohua 的大作中提到: 】
:
: selenium打开浏览器发的request的header和user agent和人类浏览发的request的一样吗?
: 是不是那些网站的前端还用JavaScript读环境信息、Canvas指纹、WebRTC指纹来识别是不是爬虫?