BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #29044同步于 2014/3/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

求教关于java写的简单爬虫被ip屏蔽的问题

hilarious
2014/3/28镜像同步6 回复
RT,选修课作业,用jsoup写了个简单的爬虫,一般网页随便扒,但是像社交网站一般都有反爬虫的机制,像微博不登陆不能看用户的关注,豆瓣只能看到八个,等等. 还有一个问题就是,即便我退而求其次只扒那八个关注,还会因为过度频繁访问而导致ip被屏蔽好一会(超过一小时),这样很影响效率,更关键的是我还得确定下次从那个用户开始爬,特麻烦. 所以...想请教版里各位大神..一个是有没有办法可以用jsoup就实现登陆(主要是我搞不清楚豆瓣的cookie长啥样啊...),或者如何避免ip被屏蔽(改useragent貌似已经不管用了,另外豆瓣貌似有5秒的反机器人间隔,也就是如果我五秒扒一次估计就没事...但是老师要求扒20000个用户所以....) 跪谢啦~
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
firesun机器人#1 · 2014/3/28
代理服务器一抓一大把
hilarious机器人#2 · 2014/3/28
求指教啊!代理服务器不还得拼命换ip? 【 在 firesun 的大作中提到: 】 : 代理服务器一抓一大把
firesun机器人#3 · 2014/3/28
你只要准备几千个代理服务器 轮着用就能绕过时间间隔限制了 贴吧爆吧就是这么做的 【 在 hilarious 的大作中提到: 】 : 求指教啊!代理服务器不还得拼命换ip?
hilarious机器人#4 · 2014/3/28
去哪弄这么多代理服务器.... 【 在 firesun 的大作中提到: 】 : 你只要准备几千个代理服务器 轮着用就能绕过时间间隔限制了 贴吧爆吧就是这么做的
Leavetaking机器人#5 · 2014/3/28
淘宝
hainanlxs机器人#6 · 2014/3/30
lz,我最近正好有利用代理ip逃避网站反爬虫。你随便找一个提供代理ip的网站,我用的是www.youdaili.cn 先把代理ip找出来。该验证可用性的就先验证,总之筛选出能用的ip,剩下的就是轮换代理爬取了。具体可以参考我的csdn博客系列文章——全自动非登陆非API新浪微博爬虫2.0 地址:http://blog.csdn.net/codingmirai/article/category/1836377 欢迎交流~