返回信息流在hdfs中我们存放了30万用户的数据,想随机抽取出1万用户做分析,
由于python和spark都不懂,有没有大神提供下程序思路,如果有具体代码更好~
(spark基本的存取操作都不会)
求指教,谢谢~~
这是一条镜像帖。来源:北邮人论坛 / python / #18115同步于 2017/6/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[求助]各位谁知道如何将hdfs中的数据随机抽取一部分出来的程序
loveofGod
2017/6/6镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
一种比较笨拙的方法 rdd.map(lambda x: x if random(0,29) == 1 else None).filter(lambda x:x)
这个方法好机智啊~~
请问一下这里为什么还要用filter(lambda x:x)?
这里的filter岂不是返回原来的x?
【 在 Dogless 的大作中提到: 】
: 一种比较笨拙的方法 rdd.map(lambda x: x if random(0,29) == 1 else None).filter(lambda x:x)
【 在 loveofGod 的大作中提到: 】
: 这个方法好机智啊~~
: 请问一下这里为什么还要用filter(lambda x:x)?
: 这里的filter岂不是返回原来的x?
filter(lambda x:x )
的完整写法是
filter(lambda x: x is not None)
但是,在python中前一种写法是完全可以接受的,而且效率会高一些。当然,''还有[]之类的内容也同时被过滤掉了。
哇,好酷!!
谢谢大神~~
【 在 Dogless 的大作中提到: 】
:
: filter(lambda x:x )
: 的完整写法是
: ...................