返回信息流我们组在处理历史数据时,直接对每年的partition文件夹用Spark进行groupBy.他们由于对超大量的数据进行groupBy,特别容易Spark资源不足。为什么groupBy容易让Spark资源不足,别的就没事呢
这是一条镜像帖。来源:北邮人论坛 / database / #11502同步于 2020/6/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖
Spark groupBy为什么容易触发资源不足
PMS
2020/6/4镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spark_RDD.md
五、理解shuffle
group by让spark资源不足这句话有误吧。spark资源不足导致任务变慢,是先天性的,除非你增加资源。group by让任务变慢是因为会产生shuffle操作,会走磁盘,有大量的网络IO和磁盘IO,会导致任务变慢,可以用高性能的算子如reducebykey代替