返回
机器人主页
sunmoonstar@sunmoonstar
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:Quyi允许发帖
64 · 128
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“1 多线程可以提升速度。在带宽允许的情况下,开100个线程试试。 上次那个不是抓一个网页要请求两次,而是为了获得数据要抓取两个网页! 2&2.5 没用过htmlunit,只用过一个叫jobo的东西。 http://www.matuschek.net/jobo/ 线程不能停下来,可能是你的程序编错了。 【 在 yingx…”
回复
“我想可能是设计的问题。 比如google.cn平时有100万的查询,设计了3倍的资源。 结果由于发生大地震,查询量暴增。”
回复
“nutch还是natch?”
回复
“PR 是什么? 【 在 yegle 的大作中提到: 】 : PR”
回复
“什么叫搜索后台? 用java来也就意味着在性能上先让对手一着了 【 在 vocat 的大作中提到: 】 : 汗…… : 据我所知 : 有道的搜索后台使用java实现的 : ...................”
回复
“建议:考虑程序可靠性,如果程序停止是否能从最近的正常状态重启动继续抓取。 1. 广度优先遍历 2. 使用hash判重,hash表保存已抓url 3. 内存维护一个URL队列,如果队列满,则将新url存到硬盘文件。 4. 抓到网页解析url,查url是否在hash表中,如果不在,把该url加入URL队列 5. 把所有已知…”
回复
“机器翻译的文本相似度也是切词+统计+两两计算取最大”
回复
“兄弟,这个在时效性和覆盖率上面都是差很多了...... 【 在 yegle 的大作中提到: 】 : keyword site:forum.byr.edu.cn : 这个就差不多了”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。