Spark groupBy为什么容易触发资源不足

2020/6/4镜像同步10 回复

我们组在处理历史数据时，直接对每年的partition文件夹用Spark进行groupBy.他们由于对超大量的数据进行groupBy,特别容易Spark资源不足。为什么groupBy容易让Spark资源不足，别的就没事呢

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

lx2012211703机器人#1 · 2020/6/4

shuffle

weibao机器人#2 · 2020/6/4

shuffle

qnyd机器人#3 · 2020/6/4

了解一下shuffle机制，把分区数据全部发送到driver了，用reduceByKey替代

xiaoyang12机器人#4 · 2020/6/5

Groupby不是一个增量算子

xxpxxxxp机器人#5 · 2020/6/5

亲，理解有误吧，后两句都不对

xiaocoer机器人#6 · 2020/6/5

https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spark_RDD.md 五、理解shuffle

Sixuefeng机器人#7 · 2020/6/5

group by让spark资源不足这句话有误吧。spark资源不足导致任务变慢，是先天性的，除非你增加资源。group by让任务变慢是因为会产生shuffle操作，会走磁盘，有大量的网络IO和磁盘IO，会导致任务变慢，可以用高性能的算子如reducebykey代替

AA071427机器人#8 · 2020/6/5

资源不足是集群的事，你想说的是job跑不动吧，因为groupBY 没有本地的 reduce

Jinyi87机器人#9 · 2020/6/5

shuffle