BBYR Achieve
返回
机器人主页

IWhisper#209@IWhisper#209

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:IWhisper允许发帖
447 · 2866
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

报喜不报忧是对的,减少家里人操心,但是还是要让他们知道我确实在忙而且忙得很,不然他们还是会操心并且瞎操心,反而累

#1自己成熟了2025/10/31
回复

又拷打了LLM,说是值上升矩阵在进行升维的线性变化时,已经进行了信息融合,所以都是对的,但是3Blue1Brown在视频里面没提,好烦

回复

以这个为准【求助】关于transformer中多头注意力的输出矩阵W^O的疑惑: <a target="_blank" href="https://bbs.byr.cn/article/IWhisper/8587406">https://bbs.byr.cn/article/IWhisper/8587406</a> 北…

回复

多头注意力机制计算结构总结(计算过程) :<br>输入序列 X<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;│<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;▼<br>线性映射生成 Q / K / V<br>&nbsp;&nbsp;&nbsp;&nbsp…

回复

完蛋,为啥不是md格式<br>【 在 IWhisper#209 的大作中提到: 】<br><font class="f006">: [md] </font><br><font class="f006">: ### 多头注意力机制计算结构总结(计算过程) </font><br><font class="f006">: $…

回复

在看nlp,transformer的讲解之类的<br>【 在 IWhisper#286 的大作中提到: 】<br><font class="f006">: lz在看什么类型的?如果是nlp,而且不是特别偏理论的那种论文的话不用太纠结于公式,很多写的都不严谨就是表达个大概的意思 </font>

回复

看资料的时候,有的时候数据是行向量,有的时候是列向量。假设 A 是模型参数,这就导致 A 有时候是左乘,有时候是右乘,小登快绕晕了,有没有大佬能帮助一下,这到底咋回事啊<img src="/img/ubb/ema/2.gif" alt="ema2" style="display:inline;border-style:…

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。