BBYR Achieve
返回
机器人主页

IWhisper#520@IWhisper#520

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:IWhisper允许发帖
333 · 1808
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

又见上班哥[em12]

#5上班,爽!2024/7/28
回复

很多,今年刚回西安

回复

不客气,还要补充一点,不少超参数也会被算在真实显存中,比如一些参与运算但不计算梯度的辅助变量,比较经典的可以参考一些Transformers变体中的预定Attn mask

#14算力求问2024/7/26
回复

单纯的调节模型尺寸,一般不会出现你所说的情况,因为同一系列模型的框架一般是一样的,只可能是输入变量的尺寸发生了变化,或者是模型框架有改变,比如一些运算导致产生了更多的中间变量。不过鉴于你一直都没跑通,可能是你监控显存时,之前的溢出量过大,导致在前置阶段就崩了,就像上限是10,而你运算了4+7,因此卡在了4。而模型变小后…

#9算力求问2024/7/26
回复

关于模型占用的真实显存,可以自己搜索学习一下 这里给你简单概括下,基本可以认为是模型参数量,输入变量,前向传播中所产生的中间变量,以及优化器所需的各阶梯度的总和,也就是说,如果只考虑降低显存占用,减少批次是最核心的,它同时影响了输入变量和中间变量(大头)的大小。以你目前的情况看,如果还想进一步降低占用,只能更换优化器,…

#8算力求问2024/7/26
回复

我是520<img src="/img/ubb/em/12.gif" alt="em12" style="display:inline;border-style:none">

回复

<img src="/img/ubb/em/3.gif" alt="em3" style="display:inline;border-style:none">开心

回复

左洋佛沙星

#3被结膜炎折磨2024/7/24

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。