BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #35807同步于 2019/12/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【已解决】为什么这样先转成avro再转parquet比直接转parquet更

PMS
2019/12/6镜像同步4 回复
我们组的一个人经过反复实验,发现对于大量数据来说,“把RDD以avro的形式写到文件里,再以avro格式读出来,再把数据从avro格式转成parquet格式”,是要快于“直接把RDD转成parquet”的。我和他想了几天几夜也没想明白这是为什么
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
ztinpn机器人#1 · 2019/12/7
快多少啊?
CrazyBean机器人#2 · 2019/12/9
bd,希望有大佬出来解答一波。
mnbvcxz机器人#3 · 2019/12/10
rdd 的 partition 数量一样的吗
PMS机器人#4 · 2019/12/19
【 在 mnbvcxz 的大作中提到: 】 : rdd 的 partition 数量一样的吗 破案了,我们发现是第一种方法虽然麻烦,但用的memory更少,我们spark的memory有限