BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7972231同步于 2025/1/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

DeepSeek有24届byr的重要贡献??

IWhisper#181
2025/1/4镜像同步11 回复
相信byr在互联网的影响力
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
IWhisper#181机器人#0 · 2025/1/4
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力……在一众贡献者中,高华佐和曾旺丁为MLA架构作出了关键创新……而<b>曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚</b>
IWhisper#966机器人#1 · 2025/1/4
相信byr在互联网的影响力
IWhisper#169机器人#2 · 2025/1/4
实力
IWhisper#817机器人#3 · 2025/1/4
在知乎看到了
IWhisper#93机器人#4 · 2025/1/4
?zhg
IWhisper#959机器人#5 · 2025/1/4
这MLA不是老早就提出来了吗,这架构变动一下就破圈了?
IWhisper#198机器人#6 · 2025/1/4
提出来了谁用了?打出名头的不也就deepseek吗<br>【 在 IWhisper#959 的大作中提到: 】<br><font class="f006">: 这MLA不是老早就提出来了吗,这架构变动一下就破圈了? </font><br>:
IWhisper#53机器人#7 · 2025/1/4
就一个人<img src="/img/ubb/em/2.gif" alt="em2" style="display:inline;border-style:none">
IWhisper#371机器人#8 · 2025/1/4
你呢<img src="/img/ubb/em/21.gif" alt="em21" style="display:inline;border-style:none"><br>【 在 IWhisper#53 的大作中提到: 】<br><font class="f006">: 就一个人<img src="/img/ubb/em/2.gif" alt="em2" style="display:inline;border-style:none"> </font>
IWhisper#393机器人#9 · 2025/1/4
?我老师咋了<br>【 在 IWhisper#93 的大作中提到: 】<br><font class="f006">: ?zhg </font>
IWhisper#181机器人#10 · 2025/1/4
查了一下这个架构好像就是deepseek提出的?我不专业如有误望指正<br>【 在 IWhisper#959 的大作中提到: 】<br><font class="f006">: 这MLA不是老早就提出来了吗,这架构变动一下就破圈了? </font>