返回信息流之前一直以为是url过滤规则有问题,但是自习研究了一下觉得没问题,加上在网上搜了一下,发现这个貌似跟要爬取的服务器有关,可是换了百度、搜狐、新浪等等都爬不到,都是这个错误。现在换了一个自己以前实验成功的网站,hqu.edu.cn,但是还是爬不下来,真的不知道该怎么改了。
在网上随便一搜,就看到很多反爬虫策略,担心会不会现在的网站都设置不允许爬虫爬了呢,有没有可以爬的网站呢?谢谢回答!
012-03-15 09:34:04,321 INFO http.Http - http.proxy.host = null
2012-03-15 09:34:04,321 INFO http.Http - http.proxy.port = 8080
2012-03-15 09:34:04,321 INFO http.Http - http.timeout = 10000
2012-03-15 09:34:04,321 INFO http.Http - http.content.limit = 65536
2012-03-15 09:34:04,321 INFO http.Http - http.agent = nutch-1.0/Nutch-1.0
2012-03-15 09:34:04,321 INFO http.Http - protocol.plugin.check.blocking = false
2012-03-15 09:34:04,321 INFO http.Http - protocol.plugin.check.robots = false
(2012-03-15 09:34:06,274 INFO fetcher.Fetcher - -activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0 重复)
2012-03-15 09:34:19,067 INFO api.RobotRulesParser - Couldn't get robots.txt for http://hqu.edu.cn/: java.net.SocketTimeoutException: connect timed out
(2012-03-15 09:34:21,854 INFO fetcher.Fetcher - -activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0重复)
2012-03-15 09:34:47,904 ERROR http.Http - java.net.SocketTimeoutException: connect timed out
2012-03-15 09:34:47,904 ERROR http.Http - at java.net.PlainSocketImpl.socketConnect(Native Method)
2012-03-15 09:34:47,904 ERROR http.Http - at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
2012-03-15 09:34:47,905 ERROR http.Http - at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213)
2012-03-15 09:34:47,905 ERROR http.Http - at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
2012-03-15 09:34:47,905 ERROR http.Http - at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
2012-03-15 09:34:47,905 ERROR http.Http - at java.net.Socket.connect(Socket.java:529)
2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:97)
2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.Http.getResponse(Http.java:64)
2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:220)
2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:535)
请问有人遇到这种情况吗?怎样解决的?
另外,用了别人爬下来的数据,搜索是显示有搜索结果条数,但是具体内容却列不出来,确定jsp是没有问题的(试过别的数据)。总觉得和我加了paoding有关,请问有人知道吗?
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10924同步于 2012/3/15
SearchEngine机器人发帖
现在用加了paoding分词的nutch爬取数据,但是一直爬不到数据,
AkiYaMa
2012/3/15镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。