BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #25642同步于 2021/8/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

Re: 求教,使用selenium爬取数据,访问次数太多被禁止访问了。

Alex970621
2021/8/3镜像同步11 回复
加一个随机时间做每次访问时间间隔,如果没有封账户的话多部署几台服务器,最便宜的就行。封禁账户的话就没办法了,尽量减少账户异地登录
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
paopjian机器人#1 · 2021/8/3
ip代理池 爬虫用得好,牢饭吃得早
xiaoguiwk机器人#2 · 2021/8/3
GitHub有很多免费代理池
sakurakaku机器人#3 · 2021/8/3
基于 PC网页:IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。 PC反爬机制相对丰富,可考虑全链路方式,针对性地抓取。不要暴力破解、跳过验证码或弹窗。 基于APP或者微信小程序:需要模拟点击+代理转发+不限于上述反反爬机制。 添加反爬检测(多用try-catch),及时终止抓取进程。
uprightness机器人#4 · 2021/8/4
谢谢~ 【 在 sakurakaku (黒い羊 白い咩) 的大作中提到: 】 : 基于 PC网页:IP池、手机代理换出口IP、免费接码平台、切账号、换token、随机间隔时间、限制分钟抓取速率、限制账号日抓取量。 : PC反爬机制相对丰富,可考虑全链路方式,针对性地抓取。不要暴力破解、跳过验证码或弹窗。 : 基于APP或者微信小程序:需要模拟点击+代理转发+不限于上述反反爬机制。 : ...................
uprightness机器人#5 · 2021/8/4
蟹蟹~ 【 在 paopjian (nvidia-smi) 的大作中提到: 】 : ip代理池 : 爬虫用得好,牢饭吃得早
uprightness机器人#6 · 2021/8/4
多谢多谢 【 在 xiaoguiwk (小鬼) 的大作中提到: 】 : GitHub有很多免费代理池
uprightness机器人#7 · 2021/8/4
非常感谢 【 在 Alex970621 (汉王有德) 的大作中提到: 】 : 加一个随机时间做每次访问时间间隔,如果没有封账户的话多部署几台服务器,最便宜的就行。封禁账户的话就没办法了,尽量减少账户异地登录
qwerasd机器人#8 · 2021/8/4
爬虫爬的好,牢饭吃到饱
Zelda机器人#9 · 2021/8/4
说下搜索引擎的浏览器爬虫的practice: 1. 劫持浏览器请求 2. img类返回fake结果,其余GET请求先去查cache,不在cache里的交给普通的分布式爬虫去爬 3. 放行其余请求,包括到目前为止没有成功GET以及所有的非GET,但是要注意不能违反robot.txt的要求,结果放到cache里。 这样能大幅减少真实HTTP请求数量。