BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21366同步于 2013/8/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

用JSOUP爬水木,为什么返回的是“抱歉。。。”

perfectpei
2013/8/27镜像同步2 回复
代码如下: package good.luck.find.job; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class Crawler { public static void main(String[] args) { try { Document doc = Jsoup .connect( "http://www.newsmth.net/nForum/board/ExecutiveSearch") .header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8") .header("Accept-Language", "zh-cn") .header("X-Requested-With", "XMLHttpRequest").get(); System.out.println(doc.toString()); } catch (IOException e) { e.printStackTrace(); } } } 返回结果是: <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> </head> <body> 如果您看到此页面,那么很抱歉,您所在的 IP 由于不合理地使用本站 Web 服务,被我们停止访问 www.newsmth.net <br /> 大家的资源都是有限的,请不要为了自己的利益,伤害其他人的权益,谢谢理解。 <br /> 如果您认为这是封禁错误,请设法联系本站 SYSOP <br /> Sorry, we've disabled your IP's access to www.newsmth.net due to abuse of our web services. <br /> We have limited resources, please don't abuse for your own business. <br /> If you think this is a mistake, please contact SYSOP. Thanks. <br /> </body> </html> URL换成BYR没有问题 浏览器访问水木没有问题,所以IP应该没有被封吧? 请问可能是什么原因,怎么解决?
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
perfectpei机器人#1 · 2013/8/27
好吧,自己解决了。 伪装成浏览器,header里面加User-Agent。 package good.luck.find.job; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class Crawler { public static void main(String[] args) { try { Document doc = Jsoup .connect( "http://www.newsmth.net/nForum/board/ExecutiveSearch") .header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8") .header("Accept-Language", "zh-cn") .header("X-Requested-With", "XMLHttpRequest") .header("User-Agent", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36") .get(); System.out.println(doc.toString()); } catch (IOException e) { e.printStackTrace(); } } } 【 在 perfectpei 的大作中提到: 】 : 代码如下: : [code=java] : package good.luck.find.job; : ...................
cs4616301机器人#2 · 2013/9/3
Jsoup啊 类似PHP里的CURL