返回信息流我们组是搞数据的,开发的时候许多人建了许多文件夹在HDFS、云上,然后日积月累,留下了许多这样开发时的临时数据,快把我们组的HDFS和云撑爆了。我经理让我们组几个人这几个星期在人肉排查、删除这些数据、文件。我觉得这种方式效率很低,大家觉得正确的管理方式是什么
这是一条镜像帖。来源:北邮人论坛 / soft-design / #48879同步于 2020/2/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖
删除组内在HDFS、云上没用的数据的正确方式是什么
mengliluohua
2020/2/29镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
我不知道具体技术细节,只是一种想法:定义一下什么是有用的数据,什么是没用的数据。提取其中的特征后对所有文件进行搜索匹配,然后再删。
或者根据那些数据的使用情况,就像某软件管家给出的信息一样“你已经好几个月没使用这款软件了”。
HDFS应该有个 Trash.
说个非技术可甩锅的方法:
1. 给所有用户发邮件说要清理数据,规则是什么,比如30天不用的数据,deadline 是什么时候。
2. 到时间了移到 Trash, 等上一个月,看有没有用户投诉,投诉就拿出上面的邮件说事。
3. 再到 trash 的过期时间,删掉。
我就是这么清掉室友放在冰箱的2018年的牛排的。