想问一下，Spark能不能实现这样的shuffle。

2020/7/31镜像同步11 回复

小白本人，想问一下，spark能不能实现这样的shuffle。输入是一个乱序数组，然后用一个RDD表示这个数组，每个partition存数组的一部分，能不能实现一个shuffle： shuffle后的RDD的每个partition中的数字之和要差不多。（效果就和这差不多： ```对整个数组做排序，然后每个分片轮流取走当前当前最大的那个```）谢谢[ema18]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

indianmifan机器人#1 · 2020/7/31

实习没人带真的太惨了[ema1][ema1][ema1][ema1][ema1]

Frankenstein机器人#2 · 2020/7/31

原来你也在搞spark

indianmifan机器人#3 · 2020/7/31

因为实习要用才搞的【在 Frankenstein 的大作中提到: 】 : 原来你也在搞spark

Mysry机器人#4 · 2020/7/31

只能保证size差不多吧，咋还能保证他们之和差不多呢？

indianmifan机器人#5 · 2020/7/31

需求就是这样... 每个数字其实是一个文件的大小，要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。【在 Mysry 的大作中提到: 】 : 只能保证size差不多吧，咋还能保证他们之和差不多呢？

Mysry机器人#6 · 2020/7/31

很多文件？单机分组不行吗？为啥一定要套spark 【在 indianmifan 的大作中提到: 】 : 需求就是这样... : 每个数字其实是一个文件的大小，要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。 : ............

indianmifan机器人#7 · 2020/7/31

项目的一部分就是用spark迁移数据【在 Mysry 的大作中提到: 】 : 很多文件？单机分组不行吗？为啥一定要套spark

Mysry机器人#8 · 2020/7/31

repartition你的数据不就每部分一样大了嘛【在 Mysry 的大作中提到: 】 : 很多文件？单机分组不行吗？为啥一定要套spark : ............

Chenrjabc机器人#9 · 2020/7/31

同样是搞Spark，为什么我的项目一顿transform就完事了，就没有难点的需求。