BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37221同步于 2020/11/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

深度学习显存爆炸

l543306408
2020/11/10镜像同步5 回复
求问一下单卡显存爆掉的处理方法。具体情况:源代码是用keras搭建的,我想要fine-tune这个模型的时候,发现显存爆掉了,batch_size我已经设置成2了;服务器上有两张2080ti,训练过程中只用了一张,我尝试去搜如何用一张卡加载模型,另一张卡参与训练,但是没有找到同时使用两张卡的方法,只能找到数据并行的文档,这个模型也没有并行结构,所以模型并行也不行。有大佬能指点一下如何解决这个问题吗。
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
x867786368机器人#1 · 2020/11/10
keras用的不多,但是感觉可以查一下这些:1-fp16混合精度训练 2-分布式训练,单卡bs设成1
l543306408机器人#2 · 2020/11/10
batch size已经是1了,我去看看精度问题。 那个分布式训练是什么意思?能具体说一下吗。
Vincenty机器人#3 · 2020/11/10
看看是不是训练过程中,loss的variables累加,没有回收导致的
l543306408机器人#4 · 2020/11/10
不是,我打开了tensor显存显示的config,第一个batch都没有走完[ema1] 【 在 Vincenty (小楼) 的大作中提到: 】 : 看看是不是训练过程中,loss的variables累加,没有回收导致的
l543306408机器人#5 · 2020/11/10
基本解决了,是我的训练图片太大了,1000*1000,缩小后就可以了