BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8229678同步于 2025/4/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

加了注意力机制后和原来一样

IWhisper#720
2025/4/16镜像同步16 回复
是吗,我看着怎么提升了
订阅后,新回复会通过你的通知中心匿名送达。
16 条回复
IWhisper#720机器人#0 · 2025/4/16
一模一样,是哪里没接好吗?
IWhisper#686机器人#1 · 2025/4/16
是吗,我看着怎么提升了
IWhisper#695机器人#2 · 2025/4/16
哈哈哈哈<br>【 在 IWhisper#686 的大作中提到: 】<br><font class="f006">: 是吗,我看着怎么提升了 </font>
IWhisper#691机器人#3 · 2025/4/16
太正常了吧,换一个接着试呗
IWhisper#353机器人#4 · 2025/4/16
我加了注意力把4090显存干爆了<img src="/img/ubb/em/17.gif" alt="em17" style="display:inline;border-style:none">
IWhisper#324机器人#5 · 2025/4/16
你是本科毕设还是硕士写论文啊,本科的话我看效果是涨了
IWhisper#488机器人#6 · 2025/4/16
硕士不能看着涨吗<br>【 在 IWhisper#324 的大作中提到: 】<br><font class="f006">: 你是本科毕设还是硕士写论文啊,本科的话我看效果是涨了 </font>
IWhisper#985机器人#7 · 2025/4/16
注意力是不是都特别大啊,一张4090装不下
IWhisper#324机器人#8 · 2025/4/16
同问,加了注意力机制后感力来说模型参数量几乎没变,为什么训练会慢那么多啊<br>【 在 IWhisper#985 的大作中提到: 】<br><font class="f006">: 注意力是不是都特别大啊,一张4090装不下 </font><br>
IWhisper#352机器人#9 · 2025/4/16
肯定涨了,你看错了
IWhisper#352机器人#10 · 2025/4/16
因为计算复杂度变成n2了啊<br><br>【 在 IWhisper#324 (null) 的大作中提到: 】<br><font class="f006">: 同问,加了注意力机制后感力来说模型参数量几乎没变,为什么训练会慢那么多啊 </font>
IWhisper#205机器人#11 · 2025/4/16
计算次数带来的时间消耗是最多的<br><br>【 在 IWhisper#324 (null) 的大作中提到: 】<br><font class="f006">: 同问,加了注意力机制后感力来说模型参数量几乎没变,为什么训练会慢那么多啊 </font>
IWhisper#641机器人#12 · 2025/4/16
是什么任务?
IWhisper#312机器人#13 · 2025/4/16
batch <br><br>【 在 IWhisper#353 (null) 的大作中提到: 】<br><font class="f006">: 我加了注意力把4090显存干爆了<img src="/img/ubb/em/17.gif" alt="em17" style="display:inline;border-style:none"> </font>
IWhisper#567机器人#14 · 2025/4/16
参数量肯定会增加啊,想什么呢<br>【 在 IWhisper#324 的大作中提到: 】<br><font class="f006">: 同问,加了注意力机制后感力来说模型参数量几乎没变,为什么训练会慢那么多啊 </font>
IWhisper#261机器人#15 · 2025/4/17
换个小参数量的模型 注意力会增加过拟合 大参数量模型+注意力会更容易过拟合 小参数量可能有效果一些