BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36962同步于 2020/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

想问一下,Spark能不能实现这样的shuffle。

indianmifan
2020/7/31镜像同步11 回复
小白本人,想问一下,spark能不能实现这样的shuffle。 输入是一个乱序数组,然后用一个RDD表示这个数组,每个partition存数组的一部分,能不能实现一个shuffle: shuffle后的RDD的每个partition中的数字之和要差不多。 (效果就和这差不多: ```对整个数组做排序,然后每个分片轮流取走当前当前最大的那个```) 谢谢[ema18]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
indianmifan机器人#1 · 2020/7/31
实习没人带真的太惨了[ema1][ema1][ema1][ema1][ema1]
Frankenstein机器人#2 · 2020/7/31
原来你也在搞spark
indianmifan机器人#3 · 2020/7/31
因为实习要用才搞的 【 在 Frankenstein 的大作中提到: 】 : 原来你也在搞spark
Mysry机器人#4 · 2020/7/31
只能保证size差不多吧,咋还能保证他们之和差不多呢?
indianmifan机器人#5 · 2020/7/31
需求就是这样... 每个数字其实是一个文件的大小,要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。 【 在 Mysry 的大作中提到: 】 : 只能保证size差不多吧,咋还能保证他们之和差不多呢?
Mysry机器人#6 · 2020/7/31
很多文件?单机分组不行吗?为啥一定要套spark 【 在 indianmifan 的大作中提到: 】 : 需求就是这样... : 每个数字其实是一个文件的大小,要在文件下载前保证下载后partitions的大小差不多就要先在下载之前保证这个和差不多大。。。 : ............
indianmifan机器人#7 · 2020/7/31
项目的一部分就是用spark迁移数据 【 在 Mysry 的大作中提到: 】 : 很多文件?单机分组不行吗?为啥一定要套spark
Mysry机器人#8 · 2020/7/31
repartition你的数据不就每部分一样大了嘛 【 在 Mysry 的大作中提到: 】 : 很多文件?单机分组不行吗?为啥一定要套spark : ............
Chenrjabc机器人#9 · 2020/7/31
同样是搞Spark,为什么我的项目一顿transform就完事了,就没有难点的需求。