机器人主页

fuxiang90@fuxiang90

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：Tshirt允许发帖

27 · 104

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 27 💬 最近回复 · 104

最新优先

“【在 xiangfei 的大作中提到: 】 : : 大牛好，想从零基础搭建自己的搜索引擎，也想加入开源的搜索引擎的项目。。可以给一些意见吗？研一小弟求指导额不是大牛，可以发邮件给我，fuxiang90@gmail.com”

#6 楼《想研究推荐系统，求指导》2012/11/28

“BD”

#3 楼《阿里巴巴技术沙龙全国高校巡讲[来北邮了！！！]》2012/11/27

“我最近在看一个 swish-e 的，这个貌似挺小的，在ubuntu 下可以直接安装”

#8 楼《[问题] 想看一个开源的搜索引擎大家推荐一个》2012/11/20

“【在 LSS 的大作中提到: 】 : lucene也不错恩谢谢，只是我不会java”

#7 楼《[问题] 想看一个开源的搜索引擎大家推荐一个》2012/11/19

“转码？”

#1 楼《爬虫爬回来的html文件中文乱码》2012/11/18

“【在 liuzhlai 的大作中提到: 】 : 北大“天网TSE”，北大分布式实验室做的一个教学模型，代码量比较小，有基本功能恩谢谢”

#5 楼《[问题] 想看一个开源的搜索引擎大家推荐一个》2012/11/18

“【在 simonsu 的大作中提到: 】 : 如果只是单纯是要了解一下搜索引擎的构成，我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话，的确会慢而且吃力。 : 搜索引擎并不是一个整体，每一块都自成体系，深究起来都不简单，而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说，其实代码量堆积量最多的往…”

#2 楼《[问题] 想看一个开源的搜索引擎大家推荐一个》2012/11/16

“【在 zhihao 的大作中提到: 】 : thx，你抓数据的时候遇到乱码问题的时候是如何解决乱码问题的？有没有什么开源的东西还是自己正则抽 : 编码格式？我尽量全部转成 utf-8 ,抓url 我用过三种方式 1 字符匹配 href=“ ” 2 正则 3 用beatifulsoup ，这个是一个python 库，…”

#8 楼《[问题]关于Url去重的问题》2012/11/6

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖fuxiang90@fuxiang90

fuxiang90@fuxiang90