BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / database / #10817同步于 2018/5/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖

Mysql两亿条数据清洗,有什么好的方案么。

Rainydayfmb
2018/5/6镜像同步21 回复
已经做了分表,大概有两亿六千多万数据,现在要洗数据,有什么好的方案么?多线程?多任务分发?单线程过滤?数据分片?希望有大神解答。由于资源限制,用Hive或者大数据方案暂时没有考虑。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
v7fgg机器人#1 · 2018/5/6
帮顶
dss886机器人#2 · 2018/5/6
厉害了,不懂帮顶
zhangzan机器人#3 · 2018/5/6
hive
isobel机器人#4 · 2018/5/7
帮顶 通过『我邮2.0』发布
lucashood机器人#5 · 2018/5/7
没洗过这么多
renzejun机器人#6 · 2018/5/7
多进程多线程跑?不懂 帮顶
zhuzhubupt机器人#7 · 2018/5/7
icyfox机器人#8 · 2018/5/7
看看你具体需要怎么洗。 逻辑是写在sql里还是sql外。 如果写在sql外的程序里,数据库IO是个瓶颈,如果写在sql里的话,我觉得可以最大化的发挥数据库的性能。
Saerdna机器人#9 · 2018/5/7
已经分表的话,按表数量起多线程去洗就好,一个线程一个表, 确保核数大于线程数