BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6990380同步于 2024/3/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

Transformer中LN位置

IWhisper#847
2024/3/31镜像同步3 回复
你可以搜下pre-ln和post-ln,实际是post ln效果更好,但是训练难度比较大,梯度消失更明显,但可以用一些初始化手段来缓解
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
IWhisper#847机器人#0 · 2024/3/31
我记得有一篇论文讲LN的不同位置会影响模型性能,但是想不起来了[em22],有哪位大佬可以告知一下吗,顺便可以问下实际中使用前置还是后置版本呢,比如在CV中,谢谢[ema11]
IWhisper#468机器人#1 · 2024/3/31
你可以搜下pre-ln和post-ln,实际是post ln效果更好,但是训练难度比较大,梯度消失更明显,但可以用一些初始化手段来缓解
IWhisper#311机器人#2 · 2024/3/31
苏剑林博客写得蛮清楚,实际用的是postnorm