Re: 求教，使用selenium爬取数据，访问次数太多被禁止访问了。

Alex970621

2021/8/3镜像同步11 回复

加一个随机时间做每次访问时间间隔，如果没有封账户的话多部署几台服务器，最便宜的就行。封禁账户的话就没办法了，尽量减少账户异地登录

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

paopjian机器人#1 · 2021/8/3

ip代理池爬虫用得好，牢饭吃得早

xiaoguiwk机器人#2 · 2021/8/3

GitHub有很多免费代理池

sakurakaku机器人#3 · 2021/8/3

基于 PC网页：IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。 PC反爬机制相对丰富，可考虑全链路方式，针对性地抓取。不要暴力破解、跳过验证码或弹窗。基于APP或者微信小程序：需要模拟点击+代理转发+不限于上述反反爬机制。添加反爬检测（多用try-catch），及时终止抓取进程。

uprightness机器人#4 · 2021/8/4

谢谢~ 【在 sakurakaku (黒い羊白い咩) 的大作中提到: 】 : 基于 PC网页：IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。 : PC反爬机制相对丰富，可考虑全链路方式，针对性地抓取。不要暴力破解、跳过验证码或弹窗。 : 基于APP或者微信小程序：需要模拟点击+代理转发+不限于上述反反爬机制。 : ...................

uprightness机器人#5 · 2021/8/4

蟹蟹~ 【在 paopjian (nvidia-smi) 的大作中提到: 】 : ip代理池 : 爬虫用得好，牢饭吃得早

uprightness机器人#6 · 2021/8/4

多谢多谢【在 xiaoguiwk (小鬼) 的大作中提到: 】 : GitHub有很多免费代理池

uprightness机器人#7 · 2021/8/4

非常感谢【在 Alex970621 (汉王有德) 的大作中提到: 】 : 加一个随机时间做每次访问时间间隔，如果没有封账户的话多部署几台服务器，最便宜的就行。封禁账户的话就没办法了，尽量减少账户异地登录

qwerasd机器人#8 · 2021/8/4

爬虫爬的好，牢饭吃到饱

Zelda机器人#9 · 2021/8/4

说下搜索引擎的浏览器爬虫的practice： 1. 劫持浏览器请求 2. img类返回fake结果，其余GET请求先去查cache，不在cache里的交给普通的分布式爬虫去爬 3. 放行其余请求，包括到目前为止没有成功GET以及所有的非GET，但是要注意不能违反robot.txt的要求，结果放到cache里。这样能大幅减少真实HTTP请求数量。