返回信息流我现在知道的有这个两个
1 coreseek ,用的sphinx ,加了中文分词的组件进去
2 firtex ,这个是中国人写的 ,
大家有什么好的推荐,,总感觉 这些代码有点大 ,一头扎不进去啊
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11186同步于 2012/11/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
[问题] 想看一个开源的搜索引擎 大家推荐一个
fuxiang90
2012/11/16镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。
搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket;反而是爬取压力控制、页面更新策略,js解析,甚至是伪装技术。
个人觉得看源码主要还是增强自己编程能力,想了解整体流程的话,真没必要从代码入手。
【 在 fuxiang90 的大作中提到: 】
: 我现在知道的有这个两个
: 1 coreseek ,用的sphinx ,加了中文分词的组件进去
: 2 firtex ,这个是中国人写的 ,
: ...................
【 在 simonsu 的大作中提到: 】
: 如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。
: 搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socket;反而是爬取压力控制、页面更新策略,js解析,甚至是伪装技术。
: 个人觉得看源码主要还是增强自己编程能力,想了解整体流程的话,真没必要从代码入手。
: ...................
流程还是看书比较好 ,主要是想增加编程能力 , 一些比较成熟的开源代码 ,看得比较费劲
看来我还是量力而行
【 在 fuxiang90 的大作中提到: 】
: 我现在知道的有这个两个
: 1 coreseek ,用的sphinx ,加了中文分词的组件进去
: 2 firtex ,这个是中国人写的 ,
: ...................
北大“天网TSE”,北大分布式实验室做的一个教学模型,代码量比较小,有基本功能