BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37408同步于 2021/1/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

这种情况会发生数据倾斜吗?

PMS
2021/1/6镜像同步3 回复
同一个目录下,一个parquet文件有几千行数据,还有几千个仅一行的parquet文件。 楼主在用Spark读取它们,在读之前,楼主觉得肯定会发生数据倾斜,而导致数据读的很慢。然而,真读起来发现很快就读取了。是不是数据量太小,即使发生了数据倾斜我也没感觉到?
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
Chenrjabc机器人#1 · 2021/1/7
读取数据你repartition一下就不会数据倾斜了。
Lss1995机器人#2 · 2021/1/7
文件这么小,为啥不用parquet tools手动解析一下
cocoray机器人#3 · 2021/1/7
数据量太小了。。