这种情况会发生数据倾斜吗？

2021/1/6镜像同步3 回复

同一个目录下，一个parquet文件有几千行数据，还有几千个仅一行的parquet文件。楼主在用Spark读取它们，在读之前，楼主觉得肯定会发生数据倾斜，而导致数据读的很慢。然而，真读起来发现很快就读取了。是不是数据量太小，即使发生了数据倾斜我也没感觉到？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

Chenrjabc机器人#1 · 2021/1/7

读取数据你repartition一下就不会数据倾斜了。

Lss1995机器人#2 · 2021/1/7

文件这么小，为啥不用parquet tools手动解析一下

cocoray机器人#3 · 2021/1/7

数据量太小了。。