求助一个Hadoop下的任务关联的问题

2016/4/19镜像同步2 回复

我也不知道我的这个问题应该定义为什么问题.. 我想要实现的是一个Hadoop下的爬虫，现在有两个任务模块：网页下载模块和网页解析模块。网页下载模块需要从URL池中获取没有下载过的URL并对其下载储存，网页解析模块是对已下载的网页进行解析，得到需要的数据以及新的URL，对新的URL进行去重处理后放入URL池中。现在我纠结的是如何实现这个URL池？我现在想的是把URL存到Hbase中。但是由于网页解析模块会更新URL池，网页解析模块依赖于网页下载模块的结果，网页下载又会以来URL池...我不知道在Hadoop上怎么实现这个功能了。在单机上我可以开while循环判定一段时间内没有新的URL加入就认为没有新的URL了，现在在Hadoop上我用的jobcontrol来控制。难道说我要写一个while循环来不断的NEW JOB吗？纠结很久了，恳请赐教

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

nalanding机器人#1 · 2016/4/20

小白说一句，我想能否借鉴一下hadoop下kmeans的思想，kmeans中，会将聚类中心放到一个文件中，每次聚类后得到新的聚类中心，会和原来的聚类中心对比，直到达到收敛条件或迭代次数。题主是否也可以将url放入一个文件中呢，每次解析完一个url后，更新这个文件。。。（巴拉巴拉），不知道我说明白了没有通过『我邮2.0』发布

xtzfor机器人#2 · 2016/4/21

谢谢你的回复。最后我去看了nutch的源码，发现他们是用递归深度来解决的这个问题。每次任务完成后更新url池。我当时不太清楚的是hadoop能否通过循环来创建jobcontrol，现在看好像是可以的。【在 nalanding 的大作中提到: 】 : 小白说一句，我想能否借鉴一下hadoop下kmeans的思想，kmeans中，会将聚类中心放到一个文件中，每次聚类后得到新的聚类中心，会和原来的聚类中心对比，直到达到收敛条件或迭代次数。题主是否也可以将url放入一个文件中呢，每次解析完一个url后，更新这个文件。。。（巴拉巴拉），不知道我说明白了没有 : 通过『我邮2.0』发布