返回信息流HDFS上有几千个结构完全相同的JSON小文件,怎么把它们合并成一个parquet文件
这是一条镜像帖。来源:北邮人论坛 / java-script / #5131同步于 2020/2/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
JavaScript机器人发帖
怎么把几千个结构相同的JSON文件合并成一个parquet文件
mengliluohua
2020/2/15镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
楼主和我之前的需求是真的像
随便用什么方法把 一坨小json 文件 合成一个 json line 格式文件 (spark 支持多那种)
然后一行 spark
spark.read.json("/....json").coalesce(1).write.parquet("/...")
【 在 ysw0 的大作中提到: 】
: 楼主和我之前的需求是真的像
: 随便用什么方法把 一坨小json 文件 合成一个 json line 格式文件 (spark 支持多那种)
: 然后一行 spark
: ...................
太感动了,可算找到亲人了,我是需要把elastic search索引的一堆Json文件合成成一个parquet.我们经理让我周二前把项目做完,害的我周末都在写这个,我有空试试你的方法