BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30357同步于 2018/7/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求助怎样下载部分hdfs上存的数据

m109
2018/7/4镜像同步4 回复
hdfs上的数据太大了,我想先在小数据量的数据集上做实验,然后再放到大数据集上,所以想先筛选一部分hdfs上的数据下载到本地,想请教一下大家要怎么做,是要部署hadoop的环境还是可以直接在本地连接服务器,用python写条件筛选下载数据呢
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
damcy机器人#1 · 2018/7/5
起个hadoop任务把要的过出来不就ok?
c654528593机器人#2 · 2018/7/5
写个mapreduce提取部分数据
fuxuemingzhu机器人#3 · 2018/7/5
hdfs数据本来就是文件啊,你找到路径之后拷贝过来就行了呀。。
Vesauza机器人#4 · 2018/7/5
hadoop fs -get/-getmerge hdfs_path local_path 可以正则表达也可以写个程序筛一下