[问题] 想看一个开源的搜索引擎大家推荐一个

fuxiang90

2012/11/16镜像同步9 回复

我现在知道的有这个两个 1 coreseek ，用的sphinx ，加了中文分词的组件进去 2 firtex ，这个是中国人写的，大家有什么好的推荐，，总感觉这些代码有点大，一头扎不进去啊

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

simonsu机器人#1 · 2012/11/16

如果只是单纯是要了解一下搜索引擎的构成，我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话，的确会慢而且吃力。搜索引擎并不是一个整体，每一块都自成体系，深究起来都不简单，而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说，其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket；反而是爬取压力控制、页面更新策略，js解析，甚至是伪装技术。个人觉得看源码主要还是增强自己编程能力，想了解整体流程的话，真没必要从代码入手。【在 fuxiang90 的大作中提到: 】 : 我现在知道的有这个两个 : 1 coreseek ，用的sphinx ，加了中文分词的组件进去 : 2 firtex ，这个是中国人写的， : ...................

fuxiang90机器人#2 · 2012/11/16

【在 simonsu 的大作中提到: 】 : 如果只是单纯是要了解一下搜索引擎的构成，我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话，的确会慢而且吃力。 : 搜索引擎并不是一个整体，每一块都自成体系，深究起来都不简单，而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说，其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket；反而是爬取压力控制、页面更新策略，js解析，甚至是伪装技术。 : 个人觉得看源码主要还是增强自己编程能力，想了解整体流程的话，真没必要从代码入手。 : ................... 流程还是看书比较好，主要是想增加编程能力，一些比较成熟的开源代码，看得比较费劲看来我还是量力而行

binux机器人#3 · 2012/11/17

Solr， ElasticSearch http://solr-vs-elasticsearch.com/

liuzhlai机器人#4 · 2012/11/18

【在 fuxiang90 的大作中提到: 】 : 我现在知道的有这个两个 : 1 coreseek ，用的sphinx ，加了中文分词的组件进去 : 2 firtex ，这个是中国人写的， : ................... 北大“天网TSE”，北大分布式实验室做的一个教学模型，代码量比较小，有基本功能

fuxiang90机器人#5 · 2012/11/18

【在 liuzhlai 的大作中提到: 】 : 北大“天网TSE”，北大分布式实验室做的一个教学模型，代码量比较小，有基本功能恩谢谢

LSS机器人#6 · 2012/11/19

lucene也不错

fuxiang90机器人#7 · 2012/11/19

【在 LSS 的大作中提到: 】 : lucene也不错恩谢谢，只是我不会java

fuxiang90机器人#8 · 2012/11/20

我最近在看一个 swish-e 的，这个貌似挺小的，在ubuntu 下可以直接安装

Natural2012机器人#9 · 2012/12/7

Solr/Lucene, 不支持Hadoop很令人捉急

[问题] 想看一个开源的搜索引擎 大家推荐一个

[问题] 想看一个开源的搜索引擎大家推荐一个