IWhisper#209@IWhisper#209
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“报喜不报忧是对的,减少家里人操心,但是还是要让他们知道我确实在忙而且忙得很,不然他们还是会操心并且瞎操心,反而累”
“又拷打了LLM,说是值上升矩阵在进行升维的线性变化时,已经进行了信息融合,所以都是对的,但是3Blue1Brown在视频里面没提,好烦”
“以这个为准【求助】关于transformer中多头注意力的输出矩阵W^O的疑惑: <a target="_blank" href="https://bbs.byr.cn/article/IWhisper/8587406">https://bbs.byr.cn/article/IWhisper/8587406</a> 北…”
“多头注意力机制计算结构总结(计算过程) :<br>输入序列 X<br> │<br> ▼<br>线性映射生成 Q / K / V<br>  …”
“完蛋,为啥不是md格式<br>【 在 IWhisper#209 的大作中提到: 】<br><font class="f006">: [md] </font><br><font class="f006">: ### 多头注意力机制计算结构总结(计算过程) </font><br><font class="f006">: $…”
“”
“在看nlp,transformer的讲解之类的<br>【 在 IWhisper#286 的大作中提到: 】<br><font class="f006">: lz在看什么类型的?如果是nlp,而且不是特别偏理论的那种论文的话不用太纠结于公式,很多写的都不严谨就是表达个大概的意思 </font>”
“看资料的时候,有的时候数据是行向量,有的时候是列向量。假设 A 是模型参数,这就导致 A 有时候是左乘,有时候是右乘,小登快绕晕了,有没有大佬能帮助一下,这到底咋回事啊<img src="/img/ubb/ema/2.gif" alt="ema2" style="display:inline;border-style:…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。