返回信息流最近有个大数据词频统计的作业,零基础小白看了一堆网页还是感觉没有思路,真心求助!
我目前已经把数据预处理的工作做完了,整理出一个txt文档,内容如下:
123,234,159,
234,
146,159,159,
………………
就是只有数字和逗号,只不过有两百万行,想统计出每个数字出现的次数,比如159出现3次,123出现1次,生成一个结果文件出来。想过excel,发现excel2016最多也只有一百多万列;看过R语言表的词频云图,不知道R能不能处理这种数据量;网上说的多的是用hadoop,楼主对这个完全小白,光hadoop平台的搭建估计都够我喝一壶了。真心请各路大哥大姐大神大咖给些具体思路[ema23][ema23][ema23]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #20539同步于 2016/7/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
小白求助词频统计
dduucckk
2016/7/9镜像同步39 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
R肯定可以处理呀,用个table就行
【 在 dduucckk 的大作中提到: 】
: 最近有个大数据词频统计的作业,零基础小白看了一堆网页还是感觉没有思路,真心求助!
: 我目前已经把数据预处理的工作做完了,整理出一个txt文档,内容如下:
: 123,234,159,
: ...................
这就是mapreduce的wordcount嘛。。不用装集群,把hadoop的jar包导进项目,直接用wordcount跑就是了?
通过『我邮2.0』发布
Hadoop太弱,用Spark,简单易懂还速度快
eg(py): ans = spark.textFile("hdfs://...")
.flatMap(lambda line: line.split(","))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)
.saveAsTextFile("hdfs://...")
手机打得有错误勿怪
发自「贵邮」