返回信息流k、q、v矩阵和Wo矩阵不都是参数吗…还是说你加的是单纯的注意力<br>【 在 IWhisper#695 的大作中提到: 】<br><font class="f006">: 参数量和Flops都几乎没变 </font>
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8267127同步于 2025/5/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
为什么加了注意力机制后训练时间变长了好多啊
IWhisper#695
2025/5/3镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
k、q、v矩阵和Wo矩阵不都是参数吗…还是说你加的是单纯的注意力<br>【 在 IWhisper#695 的大作中提到: 】<br><font class="f006">: 参数量和Flops都几乎没变 </font>