返回信息流谢谢学长们(没看到学姐)积极地给我提供思路,今天继续啃书去了。其实...不想上十大的[ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30545同步于 2018/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
大数据文件比对思路求助
zzc0315
2018/7/16镜像同步25 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
左外连接是为什么?
【 在 airfan 的大作中提到: 】
: 1、不用spark url做hash然后分桶到文件,比对文件;
: 2、用spark,做左外连接,然后map一下记个数
非ml/dl方向的,提供一点思路,不知道好不好用
肯定要对数据简单处理,比如http/https get参数算不算
然后重复率高的话可以试试哈希,重复率低的话估计会很吃内存,甚至服务器的不够用,这个时候只能上数据库了
没写过spark,mapreduce的话,建议一开始先来一轮mapreduce分别把两个query数据集的URL去重,可以hash,即url->count,注意过滤脏数据,以及协议头是否一致,需不需要去掉等处理。然后取这个过滤处理好的query放在一起,再次mapreduce,同样上述hash,map的时候需要合并些数据量,hash分桶,reduce规约获得重复数据量。前提你机器不能少
谢谢学长,我去学习一下相关知识去
【 在 airfan (【意涵团】airfan) 的大作中提到: 】
: 1、不用spark url做hash然后分桶到文件,比对文件;
: 2、用spark,做左外连接,然后map一下记个数