返回信息流代码如下:
package good.luck.find.job;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Crawler {
public static void main(String[] args) {
try {
Document doc = Jsoup
.connect(
"http://www.newsmth.net/nForum/board/ExecutiveSearch")
.header("Accept",
"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Accept-Language", "zh-cn")
.header("X-Requested-With", "XMLHttpRequest").get();
System.out.println(doc.toString());
} catch (IOException e) {
e.printStackTrace();
}
}
}
返回结果是:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
</head>
<body>
如果您看到此页面,那么很抱歉,您所在的 IP 由于不合理地使用本站 Web 服务,被我们停止访问 www.newsmth.net
<br /> 大家的资源都是有限的,请不要为了自己的利益,伤害其他人的权益,谢谢理解。
<br /> 如果您认为这是封禁错误,请设法联系本站 SYSOP
<br /> Sorry, we've disabled your IP's access to www.newsmth.net due to abuse of our web services.
<br /> We have limited resources, please don't abuse for your own business.
<br /> If you think this is a mistake, please contact SYSOP. Thanks.
<br />
</body>
</html>
URL换成BYR没有问题
浏览器访问水木没有问题,所以IP应该没有被封吧?
请问可能是什么原因,怎么解决?
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21366同步于 2013/8/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
用JSOUP爬水木,为什么返回的是“抱歉。。。”
perfectpei
2013/8/27镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
好吧,自己解决了。
伪装成浏览器,header里面加User-Agent。
package good.luck.find.job;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Crawler {
public static void main(String[] args) {
try {
Document doc = Jsoup
.connect(
"http://www.newsmth.net/nForum/board/ExecutiveSearch")
.header("Accept",
"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Accept-Language", "zh-cn")
.header("X-Requested-With", "XMLHttpRequest")
.header("User-Agent",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36")
.get();
System.out.println(doc.toString());
} catch (IOException e) {
e.printStackTrace();
}
}
}
【 在 perfectpei 的大作中提到: 】
: 代码如下:
: [code=java]
: package good.luck.find.job;
: ...................