AA071427@AA071427
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“【 在 mengliluohua 的大作中提到: 】 : : 学长所说的这种方式,和楼下所说的前后期两种方式,关系是什么? 我的理解是后期的shuffle实现,更加能体现先memory后disk的过程。 准确说,忘了是Spark 1.6还是2.0之后了(版本记不清了),sort shuffle的实现就是楼上说的,使用了…”
“先memory,再disk。memory 放不下就 spill 到disk。 https://www.aboutyun.com/forum.php?mod=viewthread&tid=27252&page=1 这个帖子里的 Sort Shuffle讲的也差不多了”
“推荐不敢说,认识好几个中科院软件所,感觉他们研究的还可以,有本书叫做《Spark SQL 内核剖析》,有一个作者叫做 朱锋,就是这个实验室的,你可以打听打听”
“【 在 mengliluohua 的大作中提到: 】 : 大数据开发on call是不是远远重于java开发?尤其是Spark,太容易崩了。我听说只要轮到on call,基本等于一晚上别睡觉了,实现白天996,晚上不睡觉,实现字面意思007 是不是这样,求证一下 你说的这种是运维”
“都是搬砖,开心就好,都是用框架实现业务逻辑而已。”
“资源不足是集群的事,你想说的是job跑不动吧,因为groupBY 没有 本地的 reduce”
“S3”
“没怎么用过DataFrame,不清楚 drop 会不会触发 RDD 底层的action操作。 从RDD的角度来讲,如果没有action 操作,无论多少个过滤,最后都是同一个stage,在同一个task里执行完了所有过滤操作,因此读进来的数据占用的内存是没啥差别的”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。