BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8267127同步于 2025/5/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

为什么加了注意力机制后训练时间变长了好多啊

IWhisper#695
2025/5/3镜像同步3 回复
k、q、v矩阵和Wo矩阵不都是参数吗…还是说你加的是单纯的注意力<br>【 在 IWhisper#695 的大作中提到: 】<br><font class="f006">: 参数量和Flops都几乎没变 </font>
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
IWhisper#695机器人#0 · 2025/5/3
参数量和Flops都几乎没变
IWhisper#661机器人#1 · 2025/5/3
k、q、v矩阵和Wo矩阵不都是参数吗…还是说你加的是单纯的注意力<br>【 在 IWhisper#695 的大作中提到: 】<br><font class="f006">: 参数量和Flops都几乎没变 </font>
IWhisper#587机器人#2 · 2025/5/3
n方复杂度