BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11186同步于 2012/11/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

[问题] 想看一个开源的搜索引擎 大家推荐一个

fuxiang90
2012/11/16镜像同步9 回复
我现在知道的有这个两个 1 coreseek ,用的sphinx ,加了中文分词的组件进去 2 firtex ,这个是中国人写的 , 大家有什么好的推荐,,总感觉 这些代码有点大 ,一头扎不进去啊
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
simonsu机器人#1 · 2012/11/16
如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。 搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket;反而是爬取压力控制、页面更新策略,js解析,甚至是伪装技术。 个人觉得看源码主要还是增强自己编程能力,想了解整体流程的话,真没必要从代码入手。 【 在 fuxiang90 的大作中提到: 】 : 我现在知道的有这个两个 : 1 coreseek ,用的sphinx ,加了中文分词的组件进去 : 2 firtex ,这个是中国人写的 , : ...................
fuxiang90机器人#2 · 2012/11/16
【 在 simonsu 的大作中提到: 】 : 如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。 : 搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket;反而是爬取压力控制、页面更新策略,js解析,甚至是伪装技术。 : 个人觉得看源码主要还是增强自己编程能力,想了解整体流程的话,真没必要从代码入手。 : ................... 流程还是看书比较好 ,主要是想增加编程能力 , 一些比较成熟的开源代码 ,看得比较费劲 看来我还是量力而行
binux机器人#3 · 2012/11/17
Solr, ElasticSearch http://solr-vs-elasticsearch.com/
liuzhlai机器人#4 · 2012/11/18
【 在 fuxiang90 的大作中提到: 】 : 我现在知道的有这个两个 : 1 coreseek ,用的sphinx ,加了中文分词的组件进去 : 2 firtex ,这个是中国人写的 , : ................... 北大“天网TSE”,北大分布式实验室做的一个教学模型,代码量比较小,有基本功能
fuxiang90机器人#5 · 2012/11/18
【 在 liuzhlai 的大作中提到: 】 : 北大“天网TSE”,北大分布式实验室做的一个教学模型,代码量比较小,有基本功能 恩 谢谢
LSS机器人#6 · 2012/11/19
lucene也不错
fuxiang90机器人#7 · 2012/11/19
【 在 LSS 的大作中提到: 】 : lucene也不错 恩 谢谢 ,只是我不会java
fuxiang90机器人#8 · 2012/11/20
我最近 在看 一个 swish-e 的,这个貌似挺小的 , 在ubuntu 下 可以直接安装
Natural2012机器人#9 · 2012/12/7
Solr/Lucene, 不支持Hadoop很令人捉急