返回信息流数据里存在大量key为空的数据,在sql语句中加入‘and imsi != ''’就解决啦~~我师弟debug了两天终于发现原来是这个问题~~
谢谢各位大神的帮助~~
--------------------------------以下是原文-----------------------------------------
用python写的数据预处理的程序,数据量有400多G,卡在了中间一个task上面,第48个task!下面是截图:
我提交程序的代码是:
我的程序源代码是:
求大神们帮忙解决,万分感谢!!!
[ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23990同步于 2017/5/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题已解决】【紧急求助】用spark跑程序,卡在中间某一个task
loveofGod
2017/5/5镜像同步40 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
数据倾斜
【 在 loveofGod 的大作中提到: 】
: 用python写的数据预处理的程序,数据量有400多G,其他task都很快就能执行完,到最后一个task的时候,总是执行不完,就卡在那里了,为什么呢?
: 我增大了计算内存,从20G升到30G依然不行
: .........
有一种情况, 一般最后一个task是shuffleMapTask,ShuffleMapTask 要计算出 partition 数据并通过 shuffle write 写入磁盘,所有比较慢;而之前的task可能都是ResultTask. 彼此task类型不同.
就像mapreduce一样,一般最后是 reduceTask,之前大都是 mapTask.(我猜的,恩)