BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / soft-design / #48879同步于 2020/2/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖

删除组内在HDFS、云上没用的数据的正确方式是什么

mengliluohua
2020/2/29镜像同步13 回复
我们组是搞数据的,开发的时候许多人建了许多文件夹在HDFS、云上,然后日积月累,留下了许多这样开发时的临时数据,快把我们组的HDFS和云撑爆了。我经理让我们组几个人这几个星期在人肉排查、删除这些数据、文件。我觉得这种方式效率很低,大家觉得正确的管理方式是什么
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
loveyourself机器人#1 · 2020/2/29
我不知道具体技术细节,只是一种想法:定义一下什么是有用的数据,什么是没用的数据。提取其中的特征后对所有文件进行搜索匹配,然后再删。 或者根据那些数据的使用情况,就像某软件管家给出的信息一样“你已经好几个月没使用这款软件了”。
mbvxgf机器人#2 · 2020/2/29
有的仓库是有数据生存期设置的。。。临时文件可以设个一个月之类的生存期,过期系统会后台清理。。hdfs应该没这种功能
buptxrc机器人#3 · 2020/2/29
想办法按最近使用时间和大小排序 检查 删除咯…
wu2011211367机器人#4 · 2020/2/29
我先补充一个吧 先备份,别只删
wukelili机器人#5 · 2020/3/1
不可以让建立的人自己决定有没有用,去删除么
monte2591机器人#6 · 2020/3/1
先按照文件大小排序,再按时间排序。然后把属主都找出来,找他们确认后依次删除,一般几个大文件会占到很高比例,一些零零碎碎的小文件其实不会占太大空间
Ace1129机器人#7 · 2020/3/1
给文件增加expire time,改改code
shuoshu机器人#8 · 2020/3/1
删前备份
feichashao机器人#9 · 2020/3/1
HDFS应该有个 Trash. 说个非技术可甩锅的方法: 1. 给所有用户发邮件说要清理数据,规则是什么,比如30天不用的数据,deadline 是什么时候。 2. 到时间了移到 Trash, 等上一个月,看有没有用户投诉,投诉就拿出上面的邮件说事。 3. 再到 trash 的过期时间,删掉。 我就是这么清掉室友放在冰箱的2018年的牛排的。