BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36177同步于 2020/2/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

可以在HDFS上unzip压缩包吗

PMS
2020/2/15镜像同步18 回复
楼主的程序需要每天把在HDFS local的大约一两个G的zip文件(解压缩后大约会扩大五六倍)解压缩并上传到HDFS上 现在有两种方案: 一种是先在HDFS local,也就是worker node上解压缩,然后上传到HDFS上。缺点是解压缩后的文件可能会把HDFS local打爆,因为HDFS的worker node还在运行别的程序。并且解压缩后再上传可能花的时间更多些 第二种是直接从HDFS local上传到HDFS上,然后在HDFS上解压缩。缺点是一直没找到HDFS上靠谱的unzip方法
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Mithrandir机器人#1 · 2020/2/15
上传到hdfs上然后使用fuse把hdfs挂载到本地,然后调用本地unzip程序解压?
qingliu机器人#2 · 2020/2/15
传上去后用HDFS API 操作文件来解压
caomxin机器人#3 · 2020/2/15
map reduce 解压
PMS机器人#4 · 2020/2/15
【 在 qingliu 的大作中提到: 】 : 传上去后用HDFS API 操作文件来解压 就是因为找了一天没找到HDFS有解压缩的API才问这个的
PMS机器人#5 · 2020/2/15
【 在 caomxin 的大作中提到: 】 : map reduce 解压 谢谢学弟,不过现在都用Spark了,没人用mapreduce了。不过我确实没往这方面考虑,我研究研究
XiaoHao1995机器人#6 · 2020/2/15
inputfotmat是gz,outputformat是text我记得可以通过mapreduce字段更改输出的格式
XiaoHao1995机器人#7 · 2020/2/15
如果数据量过大,可以分part,每次解压缩1000个part到一个hdfs地址。比如hdfs dfs -text一个part 到本地,然后hdfs dfs -put到hdfs上。
shuoshu机器人#8 · 2020/2/16
用流传输,本地不落盘
DonaldTrump机器人#9 · 2020/2/16
正解就是写mr脚本在hdfs上处理 大数据哪有把数据从云挪到本地解完在回传云的道理 能这样做的不叫大数据