返回信息流求问一下单卡显存爆掉的处理方法。具体情况:源代码是用keras搭建的,我想要fine-tune这个模型的时候,发现显存爆掉了,batch_size我已经设置成2了;服务器上有两张2080ti,训练过程中只用了一张,我尝试去搜如何用一张卡加载模型,另一张卡参与训练,但是没有找到同时使用两张卡的方法,只能找到数据并行的文档,这个模型也没有并行结构,所以模型并行也不行。有大佬能指点一下如何解决这个问题吗。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #37221同步于 2020/11/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
深度学习显存爆炸
l543306408
2020/11/10镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
不是,我打开了tensor显存显示的config,第一个batch都没有走完[ema1]
【 在 Vincenty (小楼) 的大作中提到: 】
: 看看是不是训练过程中,loss的variables累加,没有回收导致的