返回信息流楼主的程序需要每天把在HDFS local的大约一两个G的zip文件(解压缩后大约会扩大五六倍)解压缩并上传到HDFS上
现在有两种方案:
一种是先在HDFS local,也就是worker node上解压缩,然后上传到HDFS上。缺点是解压缩后的文件可能会把HDFS local打爆,因为HDFS的worker node还在运行别的程序。并且解压缩后再上传可能花的时间更多些
第二种是直接从HDFS local上传到HDFS上,然后在HDFS上解压缩。缺点是一直没找到HDFS上靠谱的unzip方法
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36177同步于 2020/2/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
可以在HDFS上unzip压缩包吗
PMS
2020/2/15镜像同步18 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 caomxin 的大作中提到: 】
: map reduce 解压
谢谢学弟,不过现在都用Spark了,没人用mapreduce了。不过我确实没往这方面考虑,我研究研究
如果数据量过大,可以分part,每次解压缩1000个part到一个hdfs地址。比如hdfs dfs -text一个part 到本地,然后hdfs dfs -put到hdfs上。