返回信息流RT,选修课作业,用jsoup写了个简单的爬虫,一般网页随便扒,但是像社交网站一般都有反爬虫的机制,像微博不登陆不能看用户的关注,豆瓣只能看到八个,等等.
还有一个问题就是,即便我退而求其次只扒那八个关注,还会因为过度频繁访问而导致ip被屏蔽好一会(超过一小时),这样很影响效率,更关键的是我还得确定下次从那个用户开始爬,特麻烦.
所以...想请教版里各位大神..一个是有没有办法可以用jsoup就实现登陆(主要是我搞不清楚豆瓣的cookie长啥样啊...),或者如何避免ip被屏蔽(改useragent貌似已经不管用了,另外豆瓣貌似有5秒的反机器人间隔,也就是如果我五秒扒一次估计就没事...但是老师要求扒20000个用户所以....)
跪谢啦~
这是一条镜像帖。来源:北邮人论坛 / java / #29044同步于 2014/3/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
求教关于java写的简单爬虫被ip屏蔽的问题
hilarious
2014/3/28镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
你只要准备几千个代理服务器 轮着用就能绕过时间间隔限制了 贴吧爆吧就是这么做的
【 在 hilarious 的大作中提到: 】
: 求指教啊!代理服务器不还得拼命换ip?
去哪弄这么多代理服务器....
【 在 firesun 的大作中提到: 】
: 你只要准备几千个代理服务器 轮着用就能绕过时间间隔限制了 贴吧爆吧就是这么做的
lz,我最近正好有利用代理ip逃避网站反爬虫。你随便找一个提供代理ip的网站,我用的是www.youdaili.cn 先把代理ip找出来。该验证可用性的就先验证,总之筛选出能用的ip,剩下的就是轮换代理爬取了。具体可以参考我的csdn博客系列文章——全自动非登陆非API新浪微博爬虫2.0
地址:http://blog.csdn.net/codingmirai/article/category/1836377
欢迎交流~