返回信息流想用Java做个数据搜索引擎,数据量比较大,求整个架构的推荐(比较适合的Java开源项目等),谢谢!
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10525同步于 2010/12/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
想用Java做个数据搜索引擎,数据量比较大,求架构推荐!
tangdi
2010/12/15镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
开源的项目很多,比较成熟的包是lucene,基于它的开发比较多,在lucene包的基础上又apache的nutch,是个完整的web搜索引擎框架和实现,nutch的运算核心又是hadoop。当然是Java实现的,另有其他如c++实现,不够成熟,核心基本都是Java,最多有其他语言的一些接口而已。如果数据量确实很大,可以考虑直接用nutch,但多少得看看hadoop。如果要求灵活性的话,可以基于lucene开发,大量数据并行或者分布式的编程,难度比较大,说实话,据说Amazon开发hadoop用了4000w$。