返回信息流请问nutch中能不能新增url啊? 就是配置了url后,运行crawl后,如果我想再新加入url,能不能成功啊?而不需要重新再运行crawl命令。
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9963同步于 2010/4/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
请问nutch中能不能新增url啊。
hustzjl
2010/4/30镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
nutch只用过一次,不太确定,应该不能的吧。
如果程序是逐条读文件,程序运行期间改文件应该会挂掉。
如果程序起始时应该就把配置文件加载到内存了,那就更无法往里加了。
而且从技术上说程序运行后url列表是在内存队列里的,多个线程一起爬,本身锁来锁去就已经很麻烦,支持url热添加代价有点大。
反正是宽度优先遍历,不如等你当前配置的url爬个差不多,停了nutch后再爬你要添加的url
楼上说的有道理
【 在 simonsu 的大作中提到: 】
: nutch只用过一次,不太确定,应该不能的吧。
: 如果程序是逐条读文件,程序运行期间改文件应该会挂掉。
: 如果程序起始时应该就把配置文件加载到内存了,那就更无法往里加了。
: ...................