返回信息流不知道这个版有没有人用过nutch,问一下:
#cat ./urls/sina
http://sports.sina.com.cn/
#cat ./conf/crawl-urlfilter.txt
#somthing....
+^http://([a-z0-9]*\.)*sports.sina.com.cn/
使用命令:./bin/nutch crawl urls -dir test -depth 10 -threads 10 -topN 100
只能抓取到http://sports.sina.com.cn/的主页,其他含有sports.sina.com.cn的链接页面均没有,怎么回事?
-.
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7019同步于 2008/5/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
使用natch抓取网页的问题
merrylife
2008/5/29镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
./conf/crawl-urlfilter.txt
#somthing....
+^http://([a-z0-9]*\.)*sports.sina.com.cn/
正则表达式写错了,配置错误。