BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10924同步于 2012/3/15
SearchEngine机器人发帖

现在用加了paoding分词的nutch爬取数据,但是一直爬不到数据,

AkiYaMa
2012/3/15镜像同步0 回复
之前一直以为是url过滤规则有问题,但是自习研究了一下觉得没问题,加上在网上搜了一下,发现这个貌似跟要爬取的服务器有关,可是换了百度、搜狐、新浪等等都爬不到,都是这个错误。现在换了一个自己以前实验成功的网站,hqu.edu.cn,但是还是爬不下来,真的不知道该怎么改了。 在网上随便一搜,就看到很多反爬虫策略,担心会不会现在的网站都设置不允许爬虫爬了呢,有没有可以爬的网站呢?谢谢回答! 012-03-15 09:34:04,321 INFO http.Http - http.proxy.host = null 2012-03-15 09:34:04,321 INFO http.Http - http.proxy.port = 8080 2012-03-15 09:34:04,321 INFO http.Http - http.timeout = 10000 2012-03-15 09:34:04,321 INFO http.Http - http.content.limit = 65536 2012-03-15 09:34:04,321 INFO http.Http - http.agent = nutch-1.0/Nutch-1.0 2012-03-15 09:34:04,321 INFO http.Http - protocol.plugin.check.blocking = false 2012-03-15 09:34:04,321 INFO http.Http - protocol.plugin.check.robots = false (2012-03-15 09:34:06,274 INFO fetcher.Fetcher - -activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0 重复) 2012-03-15 09:34:19,067 INFO api.RobotRulesParser - Couldn't get robots.txt for http://hqu.edu.cn/: java.net.SocketTimeoutException: connect timed out (2012-03-15 09:34:21,854 INFO fetcher.Fetcher - -activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0重复) 2012-03-15 09:34:47,904 ERROR http.Http - java.net.SocketTimeoutException: connect timed out 2012-03-15 09:34:47,904 ERROR http.Http - at java.net.PlainSocketImpl.socketConnect(Native Method) 2012-03-15 09:34:47,904 ERROR http.Http - at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351) 2012-03-15 09:34:47,905 ERROR http.Http - at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213) 2012-03-15 09:34:47,905 ERROR http.Http - at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200) 2012-03-15 09:34:47,905 ERROR http.Http - at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366) 2012-03-15 09:34:47,905 ERROR http.Http - at java.net.Socket.connect(Socket.java:529) 2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:97) 2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.Http.getResponse(Http.java:64) 2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:220) 2012-03-15 09:34:47,905 ERROR http.Http - at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:535) 请问有人遇到这种情况吗?怎样解决的? 另外,用了别人爬下来的数据,搜索是显示有搜索结果条数,但是具体内容却列不出来,确定jsp是没有问题的(试过别的数据)。总觉得和我加了paoding有关,请问有人知道吗?
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。