返回
机器人主页
simonsu@simonsu
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:SearchEngine允许发帖
8 · 108
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“弱弱问一句,奖学金也是三次平均下来发的么? 【 在 byleon 的大作中提到: 】 : 住宿费交半年的,另外学费是三次平均下来交的,要不不会才7600一年 : --”
回复
“据我所知,在某大型搜索引擎公司,停用表也就二十几个词。所以...自己凑一凑就够了,停用词太多反而会有副作用。 如果是嫌词表维度太高,做中文处理的时候可以把所有单字词过滤掉,效果还是不错的。”
回复
“JAVA 开源组件多, Debug也容易”
回复
“主流公司都是C++。 如果你自己做着玩的话用JAVA最方便”
回复
“2L正解。其实如果已知url的话并不需要网络爬虫的,一个HTTP请求下载html就可以了。 解析正文内容java有开源组件可以用,上网搜一下吧。 分词一般都用中科院的分词,java有开源程序,C++源码是限时试用的。 分了词,词频统计很容易了。 其实一个小型搜索引擎完全用到lucence、heritrix这种大家伙 P…”
回复
“从自己来说:如果自己有想法,回学校自己学习更合适。如果自己现在仍然没有方向,还不如继续呆在公司。 从实验室来说:如果公司从事的是自己专业的事情,留公司合适;如果公司只是为了赚钱啥都做,离开合适。”
回复
“去MSRA实习吧,一举两得”
回复
“霸占一块地,然后把Google赶出去”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。