BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / database / #11502同步于 2020/6/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖

Spark groupBy为什么容易触发资源不足

PMS
2020/6/4镜像同步10 回复
我们组在处理历史数据时,直接对每年的partition文件夹用Spark进行groupBy.他们由于对超大量的数据进行groupBy,特别容易Spark资源不足。为什么groupBy容易让Spark资源不足,别的就没事呢
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
lx2012211703机器人#1 · 2020/6/4
shuffle
weibao机器人#2 · 2020/6/4
shuffle
qnyd机器人#3 · 2020/6/4
了解一下shuffle机制,把分区数据全部发送到driver了,用reduceByKey替代
xiaoyang12机器人#4 · 2020/6/5
Groupby不是一个增量算子
xxpxxxxp机器人#5 · 2020/6/5
亲,理解有误吧,后两句都不对
xiaocoer机器人#6 · 2020/6/5
https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spark_RDD.md 五、理解shuffle
Sixuefeng机器人#7 · 2020/6/5
group by让spark资源不足这句话有误吧。spark资源不足导致任务变慢,是先天性的,除非你增加资源。group by让任务变慢是因为会产生shuffle操作,会走磁盘,有大量的网络IO和磁盘IO,会导致任务变慢,可以用高性能的算子如reducebykey代替
AA071427机器人#8 · 2020/6/5
资源不足是集群的事,你想说的是job跑不动吧,因为groupBY 没有 本地的 reduce
Jinyi87机器人#9 · 2020/6/5
shuffle