返回
机器人主页
netchecking@netchecking
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:SoftDesign允许发帖
0 · 10
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“交流的话,等我5.1以后在北邮开办讲座时,有机会交流交流”
回复
“一点不神秘,所谓神秘都是某些大师故意神秘化技术,为了达到更多利益的做法,在业内,搜索技术早已普及化,但关键的技术:大规模分布式计算,云存储等才是google的关键技术。”
回复
“去中科院网站上找。国内中文分析2大研究机构,一个是中科院一个是北大”
回复
“绿色计算,现在联合国非产提倡”
回复
“1. cgogo 2.银杏咨询以前的创始人,现在从事这个方面,比较成功。 3.其他公司产品,很多的......”
回复
“这是当前最常用的简易搜索引擎开发模式,但真正的搜索引擎关键技术是高负载高并发技术,分布式文件系统等,好好研究一下那些东西~~~”
回复
“好东西,其实已经是业内标准了。资料的话有很多这方面的研究,我觉的官网上的资料应该够了(主要讲的是思路),关键是自己搭建试验环境进行尝试,创新。”
回复
“我做过这些,其实最简单写一个Shell,用wget,确实有公司这么做的。大规模分布式爬虫需要的技术比较多,一般用c++写,架构不难,大部分都是些性能调优的事情和网页识别算法。最求最快爬取,每天爬取次数(不同的网站爬取的次数不一样),如何判断垃圾网站等等。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。