BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33509同步于 2019/3/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

面试时被问到spark sql时,哪些情况需要用broadcast?哪些情况需

PMS
2019/3/21镜像同步7 回复
面试时被问到spark sql时,哪些情况需要用broadcast?哪些情况需要用repartition?
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
Mysry机器人#1 · 2019/3/21
传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
lu1017222931机器人#2 · 2019/3/21
赞! 【 在 Mysry (Mysry) 的大作中提到: 】 : 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
talkischeap机器人#3 · 2019/3/21
太强了
Mysry机器人#4 · 2019/3/22
被gdt大佬夸受宠若惊,但是还是没被捞 【 在 lu1017222931 (【意涵团】 一份耕耘,一分收获) 的大作中提到: 】 : 赞!
lu1017222931机器人#5 · 2019/3/22
投算法的人太多啦~ 都很慢…… 【 在 Mysry (Mysry) 的大作中提到: 】 : 被gdt大佬夸受宠若惊,但是还是没被捞
ying7214机器人#6 · 2019/3/22
我在看的是一般变量超过100m以上用广播变量,想确定一下是10m还是100m? 【 在 Mysry (Mysry) 的大作中提到: 】 : 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘
PMS机器人#7 · 2019/3/24
【 在 Mysry 的大作中提到: 】 : 传入算子的变量过大,超过10m用广播变量,spark2.2可以自动转成广播变量,repartition一般可以解决一部分数据倾斜问题,也可以写hdfs时重新划分part大小,加快落盘 赞!太强了!