BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7214244同步于 2024/5/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

attention相关问题

IWhisper#577
2024/5/26镜像同步11 回复
attention要训练啥 不都是矩阵乘么 也没有参数
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
IWhisper#577机器人#0 · 2024/5/26
看到几个attention+RL的文章,但其中只介绍了RL算法的loss,没说attention的loss,网上也没人介绍过,是attention的训练不需要loss吗?
IWhisper#134机器人#1 · 2024/5/26
attention要训练啥 不都是矩阵乘么 也没有参数
IWhisper#231机器人#2 · 2024/5/26
attention只是计算模式。参数是投影矩阵和MLP
IWhisper#577机器人#3 · 2024/5/26
那三个投影矩阵是不是取值不同效果也不同?不用训练的话怎么保证这三个矩阵是好的呢?不好意思刚学不太懂
IWhisper#890机器人#4 · 2024/5/26
投影矩阵得学昂
IWhisper#216机器人#5 · 2024/5/26
attention不是几个矩阵乘法吗,不是反向传播一下就行吗
IWhisper#672机器人#6 · 2024/5/26
你这样想,神经网络是不是wx+b再加激活?三个矩阵不就是wx?道理是一样的,反向传播更新
IWhisper#577机器人#7 · 2024/5/26
好的好的,感谢,那损失函数是根据具体情况设定吧?
IWhisper#577机器人#8 · 2024/5/26
因为以前只跑过一下rl算法,loss都是给定了的,这种还不太清楚
IWhisper#672机器人#9 · 2024/5/26
是的,gpt用的好像就是交叉熵之类的
IWhisper#577机器人#10 · 2024/5/26
好的感谢,祝大佬文章都accept[ema11]