BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8587406同步于 2025/10/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

【求助】关于transformer中多头注意力的输出矩阵W^O的疑惑

IWhisper#209
2025/10/31镜像同步8 回复
又拷打了LLM,说是值上升矩阵在进行升维的线性变化时,已经进行了信息融合,所以都是对的,但是3Blue1Brown在视频里面没提,好烦
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
IWhisper#209机器人#0 · 2025/10/31
多头注意力机制计算结构总结(计算过程) :<br>输入序列 X<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>线性映射生成 Q / K / V<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>拆分为多个注意力头(head?, head?, …, head?)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>每个头分别计算注意力(独立关注不同特征)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>拼接所有注意力头的结果&nbsp;&nbsp;→&nbsp;&nbsp;得到拼接向量 H<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>通过输出矩阵 W? (Output Projection)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│&nbsp;&nbsp; └─→ 将多头结果融合、压缩、映射回模型原维度<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>最终输出(与输入维度一致,包含多头综合信息)<br><br>以GPT-3为例:<br>我昨天看3Blue1Brown的【深度学习第6章】中,博主说$W^O$其实是:把原始的$W^V$矩阵分解为了2个小矩阵(值上升矩阵和值下降矩阵,在视频的22:28位置),其中值下降矩阵被视为最终的$W^V$矩阵,而所有注意力头的值上升矩阵进行拼接,成了最后的输出矩阵$W^O$。 这样做是为了方便GPU计算,在数学上是等价的。那么这样看来输出矩阵$W^O$只有一个线性变换升维的作用(将从注意力头的128维,上升到嵌入空间的12288维)。 <br><br>但是我后面拷打LLM和看一些视频资料,都说$W^O$的作用是:将多头注意力的拼接结果重新线性变换回模型空间,完成维度映射与多头信息融合。 我有点不太理解$W^O$的多头信息融合是怎么回事。按照3Blue1Brown说的,这仅仅是将每个注意力头计算得到的上下文信息进行了简单的加和,这也不算信息统合吧。这个应该怎么理解呢?<br>
IWhisper#209机器人#1 · 2025/10/31
又拷打了LLM,说是值上升矩阵在进行升维的线性变化时,已经进行了信息融合,所以都是对的,但是3Blue1Brown在视频里面没提,好烦
IWhisper#864机器人#2 · 2025/10/31
加和拼接是等价的
IWhisper#867机器人#3 · 2025/10/31
没必要纠结
IWhisper#864机器人#4 · 2025/10/31
不知道你是不是疑惑这个<br>【 在 IWhisper#864 的大作中提到: 】<br><font class="f006">: 加和拼接是等价的 </font>
IWhisper#323机器人#5 · 2025/10/31
就是+
IWhisper#369机器人#6 · 2025/10/31
你认为的信息统合是什么呢?为什么用向量你清楚吗,QKV包含什么信息,怎么提取到的信息,transformer的输出是看的概率还是什么,底层逻辑你清楚吗?
IWhisper#286机器人#7 · 2025/10/31
楼主的疑惑是向量相加为什么就可以做到信息的融合吗?