小白求助词频统计

2016/7/9镜像同步39 回复

最近有个大数据词频统计的作业，零基础小白看了一堆网页还是感觉没有思路，真心求助！我目前已经把数据预处理的工作做完了，整理出一个txt文档，内容如下： 123，234，159， 234， 146，159，159， ……………… 就是只有数字和逗号，只不过有两百万行，想统计出每个数字出现的次数，比如159出现3次，123出现1次，生成一个结果文件出来。想过excel，发现excel2016最多也只有一百多万列；看过R语言表的词频云图，不知道R能不能处理这种数据量；网上说的多的是用hadoop，楼主对这个完全小白，光hadoop平台的搭建估计都够我喝一壶了。真心请各路大哥大姐大神大咖给些具体思路[ema23][ema23][ema23]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

panshanwhut机器人#1 · 2016/7/9

我擦，这个用hadoop的mapreduce框架，真是分分钟解决的事啊[ema1]

sjy94机器人#2 · 2016/7/9

可以直接用mapreduce的wordcount的example

supinyu机器人#3 · 2016/7/10

hadoop，mapreduce，分分钟就可以搞定

qisiwole机器人#4 · 2016/7/10

R肯定可以处理呀，用个table就行【在 dduucckk 的大作中提到: 】 : 最近有个大数据词频统计的作业，零基础小白看了一堆网页还是感觉没有思路，真心求助！ : 我目前已经把数据预处理的工作做完了，整理出一个txt文档，内容如下： : 123，234，159， : ...................

gscienty机器人#5 · 2016/7/10

百万行用不着hm，一台电脑就解决了

nalanding机器人#6 · 2016/7/10

这就是mapreduce的wordcount嘛。。不用装集群，把hadoop的jar包导进项目，直接用wordcount跑就是了? 通过『我邮2.0』发布

eliminated机器人#7 · 2016/7/10

就200w行，直接写个java程序一行一行地读应该就可以了

asv000机器人#8 · 2016/7/10

Hadoop太弱，用Spark，简单易懂还速度快 eg(py): ans = spark.textFile("hdfs://...") .flatMap(lambda line: line.split("，")) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b) .saveAsTextFile("hdfs://...") 手机打得有错误勿怪发自「贵邮」

amarantine机器人#9 · 2016/7/10

Python10行，最多一下午就能处理完