返回信息流spark count算子 在driver还是 executor 执行。 park算子不是分为, transformations 和 action, 是不是action 都是在driver上执行的,怎么看一个算子在executor或driver执行的,deviceDf.groupBy("os_type", "os_version").count().orderBy("os_type", "os_version") 像这句话,的算子在哪执行的
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #31052同步于 2018/8/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
spark问题,
wsphlb
2018/8/12镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
1. spark count算子 在executor 执行
2. action并不在driver上执行, 只是有些action会触发把数据拉回到driver端操作。 tips:如果返回的是 RDD 类型,那么这是 transformation; 如果返回的是其他数据类型,那么这是 action.
3. 一般来说 关于rdd的操作都是在execute端执行, driver端只是可以把运行结果拉回到driver端
4 deviceDf.groupBy("os_type", "os_version").count().orderBy("os_type", "os_version") 全在execute端执行