返回信息流加一个随机时间做每次访问时间间隔,如果没有封账户的话多部署几台服务器,最便宜的就行。封禁账户的话就没办法了,尽量减少账户异地登录
这是一条镜像帖。来源:北邮人论坛 / python / #25642同步于 2021/8/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
Re: 求教,使用selenium爬取数据,访问次数太多被禁止访问了。
Alex970621
2021/8/3镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
基于 PC网页:IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。
PC反爬机制相对丰富,可考虑全链路方式,针对性地抓取。不要暴力破解、跳过验证码或弹窗。
基于APP或者微信小程序:需要模拟点击+代理转发+不限于上述反反爬机制。
添加反爬检测(多用try-catch),及时终止抓取进程。
谢谢~
【 在 sakurakaku (黒い羊 白い咩) 的大作中提到: 】
: 基于 PC网页:IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。
: PC反爬机制相对丰富,可考虑全链路方式,针对性地抓取。不要暴力破解、跳过验证码或弹窗。
: 基于APP或者微信小程序:需要模拟点击+代理转发+不限于上述反反爬机制。
: ...................
非常感谢
【 在 Alex970621 (汉王有德) 的大作中提到: 】
: 加一个随机时间做每次访问时间间隔,如果没有封账户的话多部署几台服务器,最便宜的就行。封禁账户的话就没办法了,尽量减少账户异地登录
说下搜索引擎的浏览器爬虫的practice:
1. 劫持浏览器请求
2. img类返回fake结果,其余GET请求先去查cache,不在cache里的交给普通的分布式爬虫去爬
3. 放行其余请求,包括到目前为止没有成功GET以及所有的非GET,但是要注意不能违反robot.txt的要求,结果放到cache里。
这样能大幅减少真实HTTP请求数量。