返回信息流各位大佬,我想问一下解码器的多头注意力的键和值为什么都是编码器的隐状态呢?为什么是一样的呢?算注意力的加权矩阵的时候不是算查询和键的相似程度然后加权value吗?value和key一样真的可以吗?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38234同步于 2022/2/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】关于transformer的一个小问题
andyclsr
2022/2/19镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
Transfomrer详解(附pytorch代码),点击查看:https://bbs.byr.cn/article/ML_DM/38145 (来自北邮人论坛)