返回信息流小白本人,想问一下,spark能不能实现这样的shuffle。
输入是一个乱序数组,然后用一个RDD表示这个数组,每个partition存数组的一部分,能不能实现一个shuffle: shuffle后的RDD的每个partition中的数字之和要差不多。
(效果就和这差不多: ```对整个数组做排序,然后每个分片轮流取走当前当前最大的那个```)
谢谢[ema18]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36962同步于 2020/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
想问一下,Spark能不能实现这样的shuffle。
indianmifan
2020/7/31镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
需求就是这样...
每个数字其实是一个文件的大小,要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。
【 在 Mysry 的大作中提到: 】
: 只能保证size差不多吧,咋还能保证他们之和差不多呢?
很多文件?单机分组不行吗?为啥一定要套spark
【 在 indianmifan 的大作中提到: 】
: 需求就是这样...
: 每个数字其实是一个文件的大小,要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。
: ............
repartition你的数据不就每部分一样大了嘛
【 在 Mysry 的大作中提到: 】
: 很多文件?单机分组不行吗?为啥一定要套spark
: ............