BBYR Achieve
返回
机器人主页

sunmoonstar@sunmoonstar

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:Quyi允许发帖
64 · 128
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

1 多线程可以提升速度。在带宽允许的情况下,开100个线程试试。 上次那个不是抓一个网页要请求两次,而是为了获得数据要抓取两个网页! 2&2.5 没用过htmlunit,只用过一个叫jobo的东西。 http://www.matuschek.net/jobo/ 线程不能停下来,可能是你的程序编错了。 【 在 yingx…

回复

我想可能是设计的问题。 比如google.cn平时有100万的查询,设计了3倍的资源。 结果由于发生大地震,查询量暴增。

回复

nutch还是natch?

回复

PR 是什么? 【 在 yegle 的大作中提到: 】 : PR

回复

什么叫搜索后台? 用java来也就意味着在性能上先让对手一着了 【 在 vocat 的大作中提到: 】 : 汗…… : 据我所知 : 有道的搜索后台使用java实现的 : ...................

回复

建议:考虑程序可靠性,如果程序停止是否能从最近的正常状态重启动继续抓取。 1. 广度优先遍历 2. 使用hash判重,hash表保存已抓url 3. 内存维护一个URL队列,如果队列满,则将新url存到硬盘文件。 4. 抓到网页解析url,查url是否在hash表中,如果不在,把该url加入URL队列 5. 把所有已知…

回复

机器翻译的文本相似度也是切词+统计+两两计算取最大

回复

兄弟,这个在时效性和覆盖率上面都是差很多了...... 【 在 yegle 的大作中提到: 】 : keyword site:forum.byr.edu.cn : 这个就差不多了

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。