BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23990同步于 2017/5/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题已解决】【紧急求助】用spark跑程序,卡在中间某一个task

loveofGod
2017/5/5镜像同步40 回复
数据里存在大量key为空的数据,在sql语句中加入‘and imsi != ''’就解决啦~~我师弟debug了两天终于发现原来是这个问题~~ 谢谢各位大神的帮助~~ --------------------------------以下是原文----------------------------------------- 用python写的数据预处理的程序,数据量有400多G,卡在了中间一个task上面,第48个task!下面是截图: 我提交程序的代码是: 我的程序源代码是: 求大神们帮忙解决,万分感谢!!! [ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
huodan1993机器人#1 · 2017/5/5
不懂帮顶
Carbonmeat机器人#2 · 2017/5/5
bangding
xinrancy机器人#3 · 2017/5/5
帮顶~
mWX301655机器人#4 · 2017/5/5
个人觉得应该还是内存问题,试试换成kryo序列化方式看看,然后看看是卡在哪个操作上啦,有没可能是发生了数据倾斜了?。看看有没可以优化的地方
welove机器人#5 · 2017/5/5
400多g好强 帮顶
VisualUUBALL机器人#6 · 2017/5/5
数据倾斜了吧?
shirleyvip机器人#7 · 2017/5/5
数据倾斜 【 在 loveofGod 的大作中提到: 】 : 用python写的数据预处理的程序,数据量有400多G,其他task都很快就能执行完,到最后一个task的时候,总是执行不完,就卡在那里了,为什么呢? : 我增大了计算内存,从20G升到30G依然不行 : .........
guanzhe机器人#8 · 2017/5/5
你这也叫日志啊?建议在最后一个task的时候看下虚拟机状态
lu1017222931机器人#9 · 2017/5/5
有一种情况, 一般最后一个task是shuffleMapTask,ShuffleMapTask 要计算出 partition 数据并通过 shuffle write 写入磁盘,所有比较慢;而之前的task可能都是ResultTask. 彼此task类型不同. 就像mapreduce一样,一般最后是 reduceTask,之前大都是 mapTask.(我猜的,恩)