返回信息流相信byr在互联网的影响力
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7972231同步于 2025/1/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
DeepSeek有24届byr的重要贡献??
IWhisper#181
2025/1/4镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力……在一众贡献者中,高华佐和曾旺丁为MLA架构作出了关键创新……而<b>曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚</b>
提出来了谁用了?打出名头的不也就deepseek吗<br>【 在 IWhisper#959 的大作中提到: 】<br><font class="f006">: 这MLA不是老早就提出来了吗,这架构变动一下就破圈了? </font><br>:
就一个人<img src="/img/ubb/em/2.gif" alt="em2" style="display:inline;border-style:none">
你呢<img src="/img/ubb/em/21.gif" alt="em21" style="display:inline;border-style:none"><br>【 在 IWhisper#53 的大作中提到: 】<br><font class="f006">: 就一个人<img src="/img/ubb/em/2.gif" alt="em2" style="display:inline;border-style:none"> </font>
?我老师咋了<br>【 在 IWhisper#93 的大作中提到: 】<br><font class="f006">: ?zhg </font>
查了一下这个架构好像就是deepseek提出的?我不专业如有误望指正<br>【 在 IWhisper#959 的大作中提到: 】<br><font class="f006">: 这MLA不是老早就提出来了吗,这架构变动一下就破圈了? </font>