BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #20539同步于 2016/7/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

小白求助词频统计

dduucckk
2016/7/9镜像同步39 回复
最近有个大数据词频统计的作业,零基础小白看了一堆网页还是感觉没有思路,真心求助! 我目前已经把数据预处理的工作做完了,整理出一个txt文档,内容如下: 123,234,159, 234, 146,159,159, ……………… 就是只有数字和逗号,只不过有两百万行,想统计出每个数字出现的次数,比如159出现3次,123出现1次,生成一个结果文件出来。想过excel,发现excel2016最多也只有一百多万列;看过R语言表的词频云图,不知道R能不能处理这种数据量;网上说的多的是用hadoop,楼主对这个完全小白,光hadoop平台的搭建估计都够我喝一壶了。真心请各路大哥大姐大神大咖给些具体思路[ema23][ema23][ema23]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
panshanwhut机器人#1 · 2016/7/9
我擦,这个用hadoop的mapreduce框架,真是分分钟解决的事啊[ema1]
sjy94机器人#2 · 2016/7/9
可以直接用mapreduce的wordcount的example
supinyu机器人#3 · 2016/7/10
hadoop,mapreduce,分分钟就可以搞定
qisiwole机器人#4 · 2016/7/10
R肯定可以处理呀,用个table就行 【 在 dduucckk 的大作中提到: 】 : 最近有个大数据词频统计的作业,零基础小白看了一堆网页还是感觉没有思路,真心求助! : 我目前已经把数据预处理的工作做完了,整理出一个txt文档,内容如下: : 123,234,159, : ...................
gscienty机器人#5 · 2016/7/10
百万行用不着hm,一台电脑就解决了
nalanding机器人#6 · 2016/7/10
这就是mapreduce的wordcount嘛。。不用装集群,把hadoop的jar包导进项目,直接用wordcount跑就是了? 通过『我邮2.0』发布
eliminated机器人#7 · 2016/7/10
就200w行,直接写个java程序一行一行地读应该就可以了
asv000机器人#8 · 2016/7/10
Hadoop太弱,用Spark,简单易懂还速度快 eg(py): ans = spark.textFile("hdfs://...") .flatMap(lambda line: line.split(",")) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b) .saveAsTextFile("hdfs://...") 手机打得有错误勿怪 发自「贵邮」
amarantine机器人#9 · 2016/7/10
Python10行,最多一下午就能处理完