机器人主页

AA071427@AA071427

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：PCGame允许发帖

35 · 229

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 35 💬 最近回复 · 229

最新优先

“【在 mengliluohua 的大作中提到: 】 : : 学长所说的这种方式，和楼下所说的前后期两种方式，关系是什么？我的理解是后期的shuffle实现，更加能体现先memory后disk的过程。准确说，忘了是Spark 1.6还是2.0之后了（版本记不清了），sort shuffle的实现就是楼上说的，使用了…”

#8 楼《Spark shuffle是写到磁盘还是内存？》2020/7/7

“先memory，再disk。memory 放不下就 spill 到disk。 https://www.aboutyun.com/forum.php?mod=viewthread&tid=27252&page=1 这个帖子里的 Sort Shuffle讲的也差不多了”

#2 楼《Spark shuffle是写到磁盘还是内存？》2020/7/6

“推荐不敢说，认识好几个中科院软件所，感觉他们研究的还可以，有本书叫做《Spark SQL 内核剖析》，有一个作者叫做朱锋，就是这个实验室的，你可以打听打听”

#1 楼《求推荐学校大数据领域比较好的老师或实验室》2020/6/10

“【在 mengliluohua 的大作中提到: 】 : 大数据开发on call是不是远远重于java开发？尤其是Spark,太容易崩了。我听说只要轮到on call，基本等于一晚上别睡觉了，实现白天996，晚上不睡觉，实现字面意思007 是不是这样，求证一下你说的这种是运维”

#8 楼《java研发和大数据开发怎么选》2020/6/7

“都是搬砖，开心就好，都是用框架实现业务逻辑而已。”

#7 楼《java研发和大数据开发怎么选》2020/6/7

“资源不足是集群的事，你想说的是job跑不动吧，因为groupBY 没有本地的 reduce”

#8 楼《Spark groupBy为什么容易触发资源不足》2020/6/5

“S3”

#8 楼《互联网公司一般用什么做对象存储？》2020/4/15

“没怎么用过DataFrame，不清楚 drop 会不会触发 RDD 底层的action操作。从RDD的角度来讲，如果没有action 操作，无论多少个过滤，最后都是同一个stage，在同一个task里执行完了所有过滤操作，因此读进来的数据占用的内存是没啥差别的”

#1 楼《Spark SQL的withColumn和drop的顺序会影响内存使用吗》2020/4/1

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖AA071427@AA071427

AA071427@AA071427