大数据文件比对思路求助

zzc0315

2018/7/16镜像同步25 回复

谢谢学长们（没看到学姐）积极地给我提供思路，今天继续啃书去了。其实...不想上十大的[ema1]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

airfan机器人#1 · 2018/7/16

1、不用spark url做hash然后分桶到文件，比对文件； 2、用spark，做左外连接，然后map一下记个数

gauze机器人#2 · 2018/7/16

左外连接是为什么？【在 airfan 的大作中提到: 】 : 1、不用spark url做hash然后分桶到文件，比对文件； : 2、用spark，做左外连接，然后map一下记个数

zxzy机器人#3 · 2018/7/16

数据库表里的操作概念跟关系代数有关【在 gauze 的大作中提到: 】 : 左外连接是为什么？

Nroskill机器人#4 · 2018/7/16

非ml/dl方向的，提供一点思路，不知道好不好用肯定要对数据简单处理，比如http/https get参数算不算然后重复率高的话可以试试哈希，重复率低的话估计会很吃内存，甚至服务器的不够用，这个时候只能上数据库了

bit3125机器人#5 · 2018/7/16

他问的是为什么不是是什么【在 zxzy (zxzy) 的大作中提到: 】 : 数据库表里的操作概念跟关系代数有关

fengzhizi机器人#6 · 2018/7/16

hash分桶join，如果是土豪，请忽略分桶

Lss1995机器人#7 · 2018/7/16

没写过spark，mapreduce的话，建议一开始先来一轮mapreduce分别把两个query数据集的URL去重，可以hash，即url->count，注意过滤脏数据，以及协议头是否一致，需不需要去掉等处理。然后取这个过滤处理好的query放在一起，再次mapreduce，同样上述hash，map的时候需要合并些数据量，hash分桶，reduce规约获得重复数据量。前提你机器不能少

litree机器人#8 · 2018/7/17

Join一下就行了

zzc0315机器人#9 · 2018/7/17

谢谢学长，我去学习一下相关知识去【在 airfan (【意涵团】airfan) 的大作中提到: 】 : 1、不用spark url做hash然后分桶到文件，比对文件； : 2、用spark，做左外连接，然后map一下记个数