返回信息流面试时被问到spark sql时,哪些情况需要用broadcast?哪些情况需要用repartition?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33509同步于 2019/3/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
面试时被问到spark sql时,哪些情况需要用broadcast?哪些情况需
PMS
2019/3/21镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
赞!
【 在 Mysry (Mysry) 的大作中提到: 】
: 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
我在看的是一般变量超过100m以上用广播变量,想确定一下是10m还是100m?
【 在 Mysry (Mysry) 的大作中提到: 】
: 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
【 在 Mysry 的大作中提到: 】
: 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
赞!太强了!