返回信息流小盆友们,还记得我不~= ̄ω ̄=~,这两天整理了一下代码,开源了之前 byrs-news 的数据来源 byr-crawler
不过目前只开源了十大贴的爬取部分,爬取所有文章部分还没有测试完成。主要是因为以下原因:
1. 错误处理:爬取失败的文章的再爬取。
2. 一次任务中海量数据的处理,(MongoDB的cursor限制了10分钟,超过时间就会断开)。目前采用stream+batchSize的方式。
3. 代码、注释的完善。
3. 学习使用 DBRefs:目前采用朴素的保存 _id 的方法。(这样就可以方便地展示分区列表啦)
4. 更复杂的定时任务。
走过路过小手一抖,点个 star 哟~[ema3][ema3][ema3]
这是一条镜像帖。来源:北邮人论坛 / www-technology / #34335同步于 2016/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
[心得]「byrs-news」背后的NodeJs爬虫开源啦~= ̄ω ̄=~
steveyoung
2016/3/7镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复