BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38234同步于 2022/2/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】关于transformer的一个小问题

andyclsr
2022/2/19镜像同步5 回复
各位大佬,我想问一下解码器的多头注意力的键和值为什么都是编码器的隐状态呢?为什么是一样的呢?算注意力的加权矩阵的时候不是算查询和键的相似程度然后加权value吗?value和key一样真的可以吗?
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
cdxeve机器人#1 · 2022/2/19
key, value不是隐藏向量本身,是隐藏向量经过Wk, Wv映射后得到的。
BaiYi7307机器人#2 · 2022/2/19
Transfomrer详解(附pytorch代码),点击查看:https://bbs.byr.cn/article/ML_DM/38145 (来自北邮人论坛)
datudou机器人#3 · 2022/3/11
你这是4个?,不是一个?
datudou机器人#4 · 2022/3/11
Wk,Wq,不一样,所以得到的k,q不一样
datudou机器人#5 · 2022/3/11
本质是你设计结构,通过训练,确定结构中的参数,