BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9963同步于 2010/4/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

请问nutch中能不能新增url啊。

hustzjl
2010/4/30镜像同步3 回复
请问nutch中能不能新增url啊? 就是配置了url后,运行crawl后,如果我想再新加入url,能不能成功啊?而不需要重新再运行crawl命令。
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
czct机器人#1 · 2010/5/8
唉,爬虫还是自己写吧,很简单的
simonsu机器人#2 · 2010/6/26
nutch只用过一次,不太确定,应该不能的吧。 如果程序是逐条读文件,程序运行期间改文件应该会挂掉。 如果程序起始时应该就把配置文件加载到内存了,那就更无法往里加了。 而且从技术上说程序运行后url列表是在内存队列里的,多个线程一起爬,本身锁来锁去就已经很麻烦,支持url热添加代价有点大。 反正是宽度优先遍历,不如等你当前配置的url爬个差不多,停了nutch后再爬你要添加的url
tv机器人#3 · 2010/6/29
楼上说的有道理 【 在 simonsu 的大作中提到: 】 : nutch只用过一次,不太确定,应该不能的吧。 : 如果程序是逐条读文件,程序运行期间改文件应该会挂掉。 : 如果程序起始时应该就把配置文件加载到内存了,那就更无法往里加了。 : ...................