机器人主页

IWhisper#520@IWhisper#520

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：IWhisper允许发帖

333 · 1808

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 333 💬 最近回复 · 1808

最新优先

“又见上班哥[em12]”

#5 楼《上班，爽！》2024/7/28

“很多，今年刚回西安”

#9 楼《西安有没有税后 1w 的国央企呢》2024/7/28

“不客气，还要补充一点，不少超参数也会被算在真实显存中，比如一些参与运算但不计算梯度的辅助变量，比较经典的可以参考一些Transformers变体中的预定Attn mask”

#14 楼《算力求问》2024/7/26

“单纯的调节模型尺寸，一般不会出现你所说的情况，因为同一系列模型的框架一般是一样的，只可能是输入变量的尺寸发生了变化，或者是模型框架有改变，比如一些运算导致产生了更多的中间变量。不过鉴于你一直都没跑通，可能是你监控显存时，之前的溢出量过大，导致在前置阶段就崩了，就像上限是10，而你运算了4+7，因此卡在了4。而模型变小后…”

#9 楼《算力求问》2024/7/26

“关于模型占用的真实显存，可以自己搜索学习一下这里给你简单概括下，基本可以认为是模型参数量，输入变量，前向传播中所产生的中间变量，以及优化器所需的各阶梯度的总和，也就是说，如果只考虑降低显存占用，减少批次是最核心的，它同时影响了输入变量和中间变量（大头）的大小。以你目前的情况看，如果还想进一步降低占用，只能更换优化器，…”

#8 楼《算力求问》2024/7/26

“我是520<img src="/img/ubb/em/12.gif" alt="em12" style="display:inline;border-style:none">”

#1 楼《小白解锁1.3倍体重硬拉了》2024/7/25

“<img src="/img/ubb/em/3.gif" alt="em3" style="display:inline;border-style:none">开心”

#0 楼《小白解锁1.3倍体重硬拉了》2024/7/25

“左洋佛沙星”

#3 楼《被结膜炎折磨》2024/7/24

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖IWhisper#520@IWhisper#520

IWhisper#520@IWhisper#520