BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7936298同步于 2024/12/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

是不是batchsize越小,效果越好

IWhisper#392
2024/12/22镜像同步10 回复
不是
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
IWhisper#392机器人#0 · 2024/12/22
不考虑训练时间
IWhisper#478机器人#1 · 2024/12/22
不是
IWhisper#617机器人#2 · 2024/12/22
太小了不稳定,验证集损失上下震荡
IWhisper#581机器人#3 · 2024/12/22
t
IWhisper#455机器人#4 · 2024/12/22
原来越小越好吗,我们一般都是先设大一点,oom再减小
IWhisper#945机器人#5 · 2024/12/22
不是的
IWhisper#524机器人#6 · 2024/12/22
太小了一次看到的太少
IWhisper#541机器人#7 · 2024/12/22
反了吧
IWhisper#397机器人#8 · 2024/12/22
理论上说 batch size 是为了解决没办法一次把整个训练集扔进去而诞生的,一般来说大一些抵抗过拟合的能力会更强。因为更大的 batch 中会放大真正想要学习的 pattern。当然炼丹嘛,从大到小调整一个效果比较好的更好一些…
IWhisper#445机器人#9 · 2024/12/23
早上起来突然想补一嘴,如果题主是论文效果调不上去,想试试 batch size 的影响,但实验室卡不够(离开邮邮了不知道新超算啥水平,根据本科的经验瞎猜的哈),可以试试用梯度累计来模拟大 batch size,虽然这俩不完全等效(可以自己推一推),但是可能对你的论文指标有帮助<img src="/img/ubb/emb/10.gif" alt="emb10" style="display:inline;border-style:none"><br>【 在 IWhisper#397 的大作中提到: 】<br><font class="f006">: 理论上说 batch size 是为了解决没办法一次把整个训练集扔进去而诞生的,一般来说大一些抵抗过拟合的能力会更强。因为更大的 batch 中会放大真正想要学习的 pattern。当然炼丹嘛,从大到小调整一个效果比较好的更好一些… </font><br>: