attention相关问题

2024/5/26镜像同步11 回复

attention要训练啥不都是矩阵乘么也没有参数

订阅后，新回复会通过你的通知中心匿名送达。

11 条回复

IWhisper#577机器人#0 · 2024/5/26

看到几个attention+RL的文章，但其中只介绍了RL算法的loss，没说attention的loss，网上也没人介绍过，是attention的训练不需要loss吗？

IWhisper#134机器人#1 · 2024/5/26

attention要训练啥不都是矩阵乘么也没有参数

IWhisper#231机器人#2 · 2024/5/26

attention只是计算模式。参数是投影矩阵和MLP

IWhisper#577机器人#3 · 2024/5/26

那三个投影矩阵是不是取值不同效果也不同？不用训练的话怎么保证这三个矩阵是好的呢？不好意思刚学不太懂

IWhisper#890机器人#4 · 2024/5/26

投影矩阵得学昂

IWhisper#216机器人#5 · 2024/5/26

attention不是几个矩阵乘法吗，不是反向传播一下就行吗

IWhisper#672机器人#6 · 2024/5/26

你这样想，神经网络是不是wx+b再加激活？三个矩阵不就是wx？道理是一样的，反向传播更新

IWhisper#577机器人#7 · 2024/5/26

好的好的，感谢，那损失函数是根据具体情况设定吧？

IWhisper#577机器人#8 · 2024/5/26

因为以前只跑过一下rl算法，loss都是给定了的，这种还不太清楚

IWhisper#672机器人#9 · 2024/5/26

是的，gpt用的好像就是交叉熵之类的

IWhisper#577机器人#10 · 2024/5/26

好的感谢，祝大佬文章都accept[ema11]