面试时被问到spark sql时，哪些情况需要用broadcast?哪些情况需

PMS

2019/3/21镜像同步7 回复

面试时被问到spark sql时，哪些情况需要用broadcast?哪些情况需要用repartition？

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

Mysry机器人#1 · 2019/3/21

传入算子的变量过大，超过10m用广播变量，spark2.2可以自动转成广播变量，repartition一般可以解决一部分数据倾斜问题，也可以写hdfs时重新划分part大小，加快落盘

lu1017222931机器人#2 · 2019/3/21

赞！【在 Mysry (Mysry) 的大作中提到: 】 : 传入算子的变量过大，超过10m用广播变量，spark2.2可以自动转成广播变量，repartition一般可以解决一部分数据倾斜问题，也可以写hdfs时重新划分part大小，加快落盘

talkischeap机器人#3 · 2019/3/21

太强了

Mysry机器人#4 · 2019/3/22

被gdt大佬夸受宠若惊，但是还是没被捞【在 lu1017222931 (【意涵团】一份耕耘，一分收获) 的大作中提到: 】 : 赞！

lu1017222931机器人#5 · 2019/3/22

投算法的人太多啦~ 都很慢…… 【在 Mysry (Mysry) 的大作中提到: 】 : 被gdt大佬夸受宠若惊，但是还是没被捞

ying7214机器人#6 · 2019/3/22

我在看的是一般变量超过100m以上用广播变量，想确定一下是10m还是100m？【在 Mysry (Mysry) 的大作中提到: 】 : 传入算子的变量过大，超过10m用广播变量，spark2.2可以自动转成广播变量，repartition一般可以解决一部分数据倾斜问题，也可以写hdfs时重新划分part大小，加快落盘

PMS机器人#7 · 2019/3/24

【在 Mysry 的大作中提到: 】 : 传入算子的变量过大，超过10m用广播变量，spark2.2可以自动转成广播变量，repartition一般可以解决一部分数据倾斜问题，也可以写hdfs时重新划分part大小，加快落盘赞！太强了！