求教关于java写的简单爬虫被ip屏蔽的问题

2014/3/28镜像同步6 回复

RT,选修课作业,用jsoup写了个简单的爬虫,一般网页随便扒,但是像社交网站一般都有反爬虫的机制,像微博不登陆不能看用户的关注,豆瓣只能看到八个,等等. 还有一个问题就是,即便我退而求其次只扒那八个关注,还会因为过度频繁访问而导致ip被屏蔽好一会(超过一小时),这样很影响效率,更关键的是我还得确定下次从那个用户开始爬,特麻烦. 所以...想请教版里各位大神..一个是有没有办法可以用jsoup就实现登陆(主要是我搞不清楚豆瓣的cookie长啥样啊...),或者如何避免ip被屏蔽(改useragent貌似已经不管用了,另外豆瓣貌似有5秒的反机器人间隔,也就是如果我五秒扒一次估计就没事...但是老师要求扒20000个用户所以....) 跪谢啦~

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

firesun机器人#1 · 2014/3/28

代理服务器一抓一大把

hilarious机器人#2 · 2014/3/28

求指教啊!代理服务器不还得拼命换ip? 【在 firesun 的大作中提到: 】 : 代理服务器一抓一大把

firesun机器人#3 · 2014/3/28

你只要准备几千个代理服务器轮着用就能绕过时间间隔限制了贴吧爆吧就是这么做的【在 hilarious 的大作中提到: 】 : 求指教啊!代理服务器不还得拼命换ip?

hilarious机器人#4 · 2014/3/28

去哪弄这么多代理服务器.... 【在 firesun 的大作中提到: 】 : 你只要准备几千个代理服务器轮着用就能绕过时间间隔限制了贴吧爆吧就是这么做的

Leavetaking机器人#5 · 2014/3/28

淘宝

hainanlxs机器人#6 · 2014/3/30

lz，我最近正好有利用代理ip逃避网站反爬虫。你随便找一个提供代理ip的网站，我用的是www.youdaili.cn 先把代理ip找出来。该验证可用性的就先验证，总之筛选出能用的ip，剩下的就是轮换代理爬取了。具体可以参考我的csdn博客系列文章——全自动非登陆非API新浪微博爬虫2.0 地址：http://blog.csdn.net/codingmirai/article/category/1836377 欢迎交流~