返回信息流不是选一个吗
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8183284同步于 2025/3/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
大模型中的moe是强制使用一个专家,还是对所有专家加权
IWhisper#484
2025/3/30镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
使用一个专家的MoE是top-1路由,是稀疏混合专家模型(Sparse MoEs)中top-k路由的特例<br>使用所有专家的MoE是Dense MoEs