返回信息流我也不知道我的这个问题应该定义为什么问题..
我想要实现的是一个Hadoop下的爬虫,现在有两个任务模块:网页下载模块和网页解析模块。网页下载模块需要从URL池中获取没有下载过的URL并对其下载储存,网页解析模块是对已下载的网页进行解析,得到需要的数据以及新的URL,对新的URL进行去重处理后放入URL池中。
现在我纠结的是如何实现这个URL池?我现在想的是把URL存到Hbase中。但是由于网页解析模块会更新URL池,网页解析模块依赖于网页下载模块的结果,网页下载又会以来URL池...我不知道在Hadoop上怎么实现这个功能了。
在单机上我可以开while循环判定一段时间内没有新的URL加入就认为没有新的URL了,现在在Hadoop上我用的jobcontrol来控制。难道说我要写一个while循环来不断的NEW JOB吗?纠结很久了,恳请赐教
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19386同步于 2016/4/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求助一个Hadoop下的任务关联的问题
xtzfor
2016/4/19镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
小白说一句,我想能否借鉴一下hadoop下kmeans的思想,kmeans中,会将聚类中心放到一个文件中,每次聚类后得到新的聚类中心,会和原来的聚类中心对比,直到达到收敛条件或迭代次数。题主是否也可以将url放入一个文件中呢,每次解析完一个url后,更新这个文件。。。(巴拉巴拉),不知道我说明白了没有
通过『我邮2.0』发布
谢谢你的回复。最后我去看了nutch的源码,发现他们是用递归深度来解决的这个问题。每次任务完成后更新url池。我当时不太清楚的是hadoop能否通过循环来创建jobcontrol,现在看好像是可以的。
【 在 nalanding 的大作中提到: 】
: 小白说一句,我想能否借鉴一下hadoop下kmeans的思想,kmeans中,会将聚类中心放到一个文件中,每次聚类后得到新的聚类中心,会和原来的聚类中心对比,直到达到收敛条件或迭代次数。题主是否也可以将url放入一个文件中呢,每次解析完一个url后,更新这个文件。。。(巴拉巴拉),不知道我说明白了没有
: 通过『我邮2.0』发布