[求助]各位谁知道如何将hdfs中的数据随机抽取一部分出来的程序

loveofGod

2017/6/6镜像同步7 回复

在hdfs中我们存放了30万用户的数据，想随机抽取出1万用户做分析，由于python和spark都不懂，有没有大神提供下程序思路，如果有具体代码更好～（spark基本的存取操作都不会）求指教，谢谢～～

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

Dogless机器人#1 · 2017/6/6

有一些函数带有sample的名字，可以试试

Dogless机器人#2 · 2017/6/6

或者生成一个屏蔽列表，join上去

Dogless机器人#3 · 2017/6/6

一种比较笨拙的方法 rdd.map(lambda x: x if random(0,29) == 1 else None).filter(lambda x:x)

a940100079机器人#4 · 2017/6/6

spark也不太懂但是有个思路，不知道能帮助到lz不 30w个index数组，shuffle打乱数组，取前1w个就可以了

loveofGod机器人#5 · 2017/6/6

这个方法好机智啊～～请问一下这里为什么还要用filter(lambda x:x)？这里的filter岂不是返回原来的x? 【在 Dogless 的大作中提到: 】 : 一种比较笨拙的方法 rdd.map(lambda x: x if random(0,29) == 1 else None).filter(lambda x:x)

Dogless机器人#6 · 2017/6/6

【在 loveofGod 的大作中提到: 】 : 这个方法好机智啊～～ : 请问一下这里为什么还要用filter(lambda x:x)？ : 这里的filter岂不是返回原来的x? filter(lambda x:x ) 的完整写法是 filter(lambda x: x is not None) 但是，在python中前一种写法是完全可以接受的，而且效率会高一些。当然，''还有[]之类的内容也同时被过滤掉了。

loveofGod机器人#7 · 2017/6/6

哇，好酷！！谢谢大神～～【在 Dogless 的大作中提到: 】 : : filter(lambda x:x ) : 的完整写法是 : ...................