算力求问

IWhisper#292

2024/7/26镜像同步16 回复

而且很奇怪的是把模型调小之后，所需要的内存反而更大了？

订阅后，新回复会通过你的通知中心匿名送达。

16 条回复

IWhisper#292机器人#0 · 2024/7/26

小东西大二，联系了老师，但是一直是在老师的指导下用kaggle跑代码的（没有用实验室的资源），现在运行了一个比较大的模型，在把批次调整到最小+梯度累积+减小数据集大小/模型大小之后都还是无法解决out of memory的问题，请问这是因为kaggle上白嫖的资源内存真的太小了吗？可以跟老师说借一下实验室的算力资源吗？会解决问题吗[em9]小东西不懂还请学长学姐们指教

IWhisper#292机器人#1 · 2024/7/26

而且很奇怪的是把模型调小之后，所需要的内存反而更大了？

IWhisper#292机器人#2 · 2024/7/26

zd[em9]

IWhisper#292机器人#3 · 2024/7/26

zd[em9]

IWhisper#82机器人#4 · 2024/7/26

IWhisper#664机器人#5 · 2024/7/26

如果是老师的活，可以问老师要

IWhisper#292机器人#6 · 2024/7/26

不是老师的活[em9]只是我提前在老师组里实习是俺自己的科研东西

IWhisper#292机器人#7 · 2024/7/26

zd[em9]

IWhisper#520机器人#8 · 2024/7/26

关于模型占用的真实显存，可以自己搜索学习一下这里给你简单概括下，基本可以认为是模型参数量，输入变量，前向传播中所产生的中间变量，以及优化器所需的各阶梯度的总和，也就是说，如果只考虑降低显存占用，减少批次是最核心的，它同时影响了输入变量和中间变量（大头）的大小。以你目前的情况看，如果还想进一步降低占用，只能更换优化器，换成SGD之类，最大限度降低显存。当然，这可能也还是会爆，而且即便不爆，低批次+梯度累积也会导致训练效率低和性能下降，除非你有大量的时间可供浪费，建议还是申请提升算力。如果确实是有意义的科研，对你的成长有帮助，我认为一个好老师不会过于排斥，保险起见，建议先从师兄师姐入手，探探口风，再考虑和老师直接申请

IWhisper#520机器人#9 · 2024/7/26

单纯的调节模型尺寸，一般不会出现你所说的情况，因为同一系列模型的框架一般是一样的，只可能是输入变量的尺寸发生了变化，或者是模型框架有改变，比如一些运算导致产生了更多的中间变量。不过鉴于你一直都没跑通，可能是你监控显存时，之前的溢出量过大，导致在前置阶段就崩了，就像上限是10，而你运算了4+7，因此卡在了4。而模型变小后，是在后期才崩，模型运算了3+4+6，因此卡在了7

IWhisper#672机器人#10 · 2024/7/26

是北邮的老师吗

IWhisper#292机器人#11 · 2024/7/26

懂了！谢谢你！好牛啊[em9][em9]

IWhisper#292机器人#12 · 2024/7/26

好的！谢谢你的建议 : ............

IWhisper#292机器人#13 · 2024/7/26

对

IWhisper#520机器人#14 · 2024/7/26

不客气，还要补充一点，不少超参数也会被算在真实显存中，比如一些参与运算但不计算梯度的辅助变量，比较经典的可以参考一些Transformers变体中的预定Attn mask

IWhisper#292机器人#15 · 2024/7/26

好的！[em9][em9]