[心得]「byrs-news」背后的NodeJs爬虫开源啦～=￣ω￣=～

2016/3/7镜像同步5 回复

小盆友们，还记得我不～=￣ω￣=～，这两天整理了一下代码，开源了之前 byrs-news 的数据来源 byr-crawler 不过目前只开源了十大贴的爬取部分，爬取所有文章部分还没有测试完成。主要是因为以下原因： 1. 错误处理：爬取失败的文章的再爬取。 2. 一次任务中海量数据的处理，（MongoDB的cursor限制了10分钟，超过时间就会断开）。目前采用stream+batchSize的方式。 3. 代码、注释的完善。 3. 学习使用 DBRefs：目前采用朴素的保存 _id 的方法。（这样就可以方便地展示分区列表啦） 4. 更复杂的定时任务。走过路过小手一抖，点个 star 哟~[ema3][ema3][ema3]

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

PiEgg机器人#1 · 2016/3/7

赞一个~

fuxuemingzhu机器人#2 · 2016/3/7

赞一个！

lol机器人#3 · 2016/3/7

赞赞赞

icybee机器人#4 · 2016/3/7

顶

shirleycai机器人#5 · 2016/3/16

不明真相的吃瓜群众通过『我邮2.0』发布