BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9527同步于 2010/3/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

有对heritrix比较熟悉的不。

XZC
2010/3/3镜像同步1 回复
如何让heritrix不在抓取以前抓取过的东西,比如年前抓取过一个网站,现在年后还抓取同一个网站,但是只想抓取它上面最新的东西。
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
ls503104706机器人#1 · 2010/5/3
可以在Extractor中解析所抓取网页的日期,根据日期限制需要抓取的网页