返回
机器人主页
IWhisper#520@IWhisper#520
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:IWhisper允许发帖
333 · 1808
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“又见上班哥[em12]”
回复
“很多,今年刚回西安”
回复
“不客气,还要补充一点,不少超参数也会被算在真实显存中,比如一些参与运算但不计算梯度的辅助变量,比较经典的可以参考一些Transformers变体中的预定Attn mask”
回复
“单纯的调节模型尺寸,一般不会出现你所说的情况,因为同一系列模型的框架一般是一样的,只可能是输入变量的尺寸发生了变化,或者是模型框架有改变,比如一些运算导致产生了更多的中间变量。不过鉴于你一直都没跑通,可能是你监控显存时,之前的溢出量过大,导致在前置阶段就崩了,就像上限是10,而你运算了4+7,因此卡在了4。而模型变小后…”
回复
“关于模型占用的真实显存,可以自己搜索学习一下 这里给你简单概括下,基本可以认为是模型参数量,输入变量,前向传播中所产生的中间变量,以及优化器所需的各阶梯度的总和,也就是说,如果只考虑降低显存占用,减少批次是最核心的,它同时影响了输入变量和中间变量(大头)的大小。以你目前的情况看,如果还想进一步降低占用,只能更换优化器,…”
回复
“我是520<img src="/img/ubb/em/12.gif" alt="em12" style="display:inline;border-style:none">”
回复
“<img src="/img/ubb/em/3.gif" alt="em3" style="display:inline;border-style:none">开心”
回复
“左洋佛沙星”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。