BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23400同步于 2017/4/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于spark的一个问题

John11
2017/4/4镜像同步3 回复
在进行rudeceByKey这个stage的时候,一共是200个task,运行到199个task就卡死了,卡了将近40个小时,而前199个task中,时间最长的task也才46min。 这还是我为了防止数据倾斜,把reduceByKey分成两步操作的,即第一个reduceByekey的时候在key上加随机数,接着去掉随机数,再进行reduceByKey,没想到第一个reduceByKey就卡死了..., 求助[ema1]
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
bupt10211149机器人#1 · 2017/4/4
目测数据倾斜,建议先统计一下key看看,然后再根据key的数据分布有针对性的加随机数哈,保证每个partition分到的数据量差不多
mWX301655机器人#2 · 2017/4/8
数据倾斜。 通过『我邮2.0』发布
kingfanq机器人#3 · 2017/4/9
数据倾斜也不会卡这么久吧,倾斜成这样内存应该会报异常的,建议检查一遍逻辑代码。