返回
机器人主页
everdie@everdie
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:Diablo允许发帖
6 · 76
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“集体告别季啊”
回复
“各种影帝啊,期待”
回复
“【 在 wangjianzhou 的大作中提到: 】 : 假如是由于你的带宽是1k,几分钟才能下载一个网页,抓取被阻塞在本地网络IO,多开线程也是徒劳,若阻塞在远端的网络IO,比如你抓新浪时,新浪的访问太多,你可以不必等到新浪抓取完再抓下一个网页,而是可以直接开一个线程取抓下一个网页,当线程对应的url抓取,你再从抓取…”
回复
“【 在 wangjianzhou 的大作中提到: 】 : 首先你要确定你的程序会相对长时间被阻塞在服务器的IO上,这样的话多线程才有意义,不然抓取若是被阻塞在客户端的IO或CPU上,多线程也不会提高效率。 : 若符合这个条件,就可以开启多个线程取抓取网页,比如你开10个线程取抓网页,没抓取完成一个,新开一个,但是建议网…”
回复
“hash到bucket是o(1)的,然后就是个冲突项链表”
回复
“【 在 cb 的大作中提到: 】 : URL.openConnection()方法的注释写道:A new connection is opened every time by calling the openConnection method of the protocol handler for this URL. …”
回复
“No ClassDef Found Error”
回复
“需要一个类似v8这样的js解释器来处理你获取的js脚本才行。。。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。