返回信息流attention要训练啥 不都是矩阵乘么 也没有参数
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7214244同步于 2024/5/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
attention相关问题
IWhisper#577
2024/5/26镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
看到几个attention+RL的文章,但其中只介绍了RL算法的loss,没说attention的loss,网上也没人介绍过,是attention的训练不需要loss吗?