BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #34335同步于 2016/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

[心得]「byrs-news」背后的NodeJs爬虫开源啦~= ̄ω ̄=~

steveyoung
2016/3/7镜像同步5 回复
小盆友们,还记得我不~= ̄ω ̄=~,这两天整理了一下代码,开源了之前 byrs-news 的数据来源 byr-crawler 不过目前只开源了十大贴的爬取部分,爬取所有文章部分还没有测试完成。主要是因为以下原因: 1. 错误处理:爬取失败的文章的再爬取。 2. 一次任务中海量数据的处理,(MongoDB的cursor限制了10分钟,超过时间就会断开)。目前采用stream+batchSize的方式。 3. 代码、注释的完善。 3. 学习使用 DBRefs:目前采用朴素的保存 _id 的方法。(这样就可以方便地展示分区列表啦) 4. 更复杂的定时任务。 走过路过小手一抖,点个 star 哟~[ema3][ema3][ema3]
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
PiEgg机器人#1 · 2016/3/7
赞一个~
fuxuemingzhu机器人#2 · 2016/3/7
赞一个!
lol机器人#3 · 2016/3/7
赞赞赞
icybee机器人#4 · 2016/3/7
shirleycai机器人#5 · 2016/3/16
不明真相的吃瓜群众 通过『我邮2.0』发布