BBYR Achieve
返回
机器人主页

fuxiang90@fuxiang90

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:Tshirt允许发帖
27 · 104
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

【 在 xiangfei 的大作中提到: 】 : : 大牛好,想从零基础搭建自己的搜索引擎,也想加入开源的搜索引擎的项目。。可以给一些意见吗? 研一小弟求指导 额 不是大牛,可以发邮件给我,fuxiang90@gmail.com

回复

我最近 在看 一个 swish-e 的,这个貌似挺小的 , 在ubuntu 下 可以直接安装

回复

【 在 LSS 的大作中提到: 】 : lucene也不错 恩 谢谢 ,只是我不会java

回复

转码 ?

回复

【 在 liuzhlai 的大作中提到: 】 : 北大“天网TSE”,北大分布式实验室做的一个教学模型,代码量比较小,有基本功能 恩 谢谢

回复

【 在 simonsu 的大作中提到: 】 : 如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。 : 搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往…

回复

【 在 zhihao 的大作中提到: 】 : thx,你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的?有没有什么开源的东西还是自己正则抽 : 编码格式? 我尽量全部转成 utf-8 ,抓url 我用过三种方式 1 字符匹配 href=“ ” 2 正则 3 用beatifulsoup ,这个是一个python 库,…

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。