返回信息流不是
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7936298同步于 2024/12/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
是不是batchsize越小,效果越好
IWhisper#392
2024/12/22镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
理论上说 batch size 是为了解决没办法一次把整个训练集扔进去而诞生的,一般来说大一些抵抗过拟合的能力会更强。因为更大的 batch 中会放大真正想要学习的 pattern。当然炼丹嘛,从大到小调整一个效果比较好的更好一些…
早上起来突然想补一嘴,如果题主是论文效果调不上去,想试试 batch size 的影响,但实验室卡不够(离开邮邮了不知道新超算啥水平,根据本科的经验瞎猜的哈),可以试试用梯度累计来模拟大 batch size,虽然这俩不完全等效(可以自己推一推),但是可能对你的论文指标有帮助<img src="/img/ubb/emb/10.gif" alt="emb10" style="display:inline;border-style:none"><br>【 在 IWhisper#397 的大作中提到: 】<br><font class="f006">: 理论上说 batch size 是为了解决没办法一次把整个训练集扔进去而诞生的,一般来说大一些抵抗过拟合的能力会更强。因为更大的 batch 中会放大真正想要学习的 pattern。当然炼丹嘛,从大到小调整一个效果比较好的更好一些… </font><br>: