BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30545同步于 2018/7/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

大数据文件比对思路求助

zzc0315
2018/7/16镜像同步25 回复
谢谢学长们(没看到学姐)积极地给我提供思路,今天继续啃书去了。其实...不想上十大的[ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
airfan机器人#1 · 2018/7/16
1、不用spark url做hash然后分桶到文件,比对文件; 2、用spark,做左外连接,然后map一下记个数
gauze机器人#2 · 2018/7/16
左外连接是为什么? 【 在 airfan 的大作中提到: 】 : 1、不用spark url做hash然后分桶到文件,比对文件; : 2、用spark,做左外连接,然后map一下记个数
zxzy机器人#3 · 2018/7/16
数据库表里的操作概念 跟关系代数有关 【 在 gauze 的大作中提到: 】 : 左外连接是为什么?
Nroskill机器人#4 · 2018/7/16
非ml/dl方向的,提供一点思路,不知道好不好用 肯定要对数据简单处理,比如http/https get参数算不算 然后重复率高的话可以试试哈希,重复率低的话估计会很吃内存,甚至服务器的不够用,这个时候只能上数据库了
bit3125机器人#5 · 2018/7/16
他问的是为什么不是是什么 【 在 zxzy (zxzy) 的大作中提到: 】 : 数据库表里的操作概念 跟关系代数有关
fengzhizi机器人#6 · 2018/7/16
hash分桶join,如果是土豪,请忽略分桶
Lss1995机器人#7 · 2018/7/16
没写过spark,mapreduce的话,建议一开始先来一轮mapreduce分别把两个query数据集的URL去重,可以hash,即url->count,注意过滤脏数据,以及协议头是否一致,需不需要去掉等处理。然后取这个过滤处理好的query放在一起,再次mapreduce,同样上述hash,map的时候需要合并些数据量,hash分桶,reduce规约获得重复数据量。前提你机器不能少
litree机器人#8 · 2018/7/17
Join一下就行了
zzc0315机器人#9 · 2018/7/17
谢谢学长,我去学习一下相关知识去 【 在 airfan (【意涵团】airfan) 的大作中提到: 】 : 1、不用spark url做hash然后分桶到文件,比对文件; : 2、用spark,做左外连接,然后map一下记个数