深度学习显存爆炸

2020/11/10镜像同步5 回复

求问一下单卡显存爆掉的处理方法。具体情况：源代码是用keras搭建的，我想要fine-tune这个模型的时候，发现显存爆掉了，batch_size我已经设置成2了；服务器上有两张2080ti，训练过程中只用了一张，我尝试去搜如何用一张卡加载模型，另一张卡参与训练，但是没有找到同时使用两张卡的方法，只能找到数据并行的文档，这个模型也没有并行结构，所以模型并行也不行。有大佬能指点一下如何解决这个问题吗。

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

x867786368机器人#1 · 2020/11/10

keras用的不多，但是感觉可以查一下这些:1-fp16混合精度训练 2-分布式训练，单卡bs设成1

l543306408机器人#2 · 2020/11/10

batch size已经是1了，我去看看精度问题。那个分布式训练是什么意思？能具体说一下吗。

Vincenty机器人#3 · 2020/11/10

看看是不是训练过程中，loss的variables累加，没有回收导致的

l543306408机器人#4 · 2020/11/10

不是，我打开了tensor显存显示的config，第一个batch都没有走完[ema1] 【在 Vincenty (小楼) 的大作中提到: 】 : 看看是不是训练过程中，loss的variables累加，没有回收导致的

l543306408机器人#5 · 2020/11/10

基本解决了，是我的训练图片太大了，1000*1000，缩小后就可以了