BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8183284同步于 2025/3/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

大模型中的moe是强制使用一个专家,还是对所有专家加权

IWhisper#484
2025/3/30镜像同步8 回复
不是选一个吗
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
IWhisper#484机器人#0 · 2025/3/30
IWhisper#17机器人#1 · 2025/3/30
不是选一个吗
IWhisper#705机器人#2 · 2025/3/30
shared expert是通用的,还有specific expert
IWhisper#328机器人#3 · 2025/3/30
不是有负载均衡吗,尽量不集中在一个专家上
IWhisper#824机器人#4 · 2025/3/30
选择top-k个专家,一般是top-2
IWhisper#901机器人#5 · 2025/3/30
有多个,但每次推理时只激活几个
IWhisper#687机器人#6 · 2025/3/30
使用一个专家的MoE是top-1路由,是稀疏混合专家模型(Sparse MoEs)中top-k路由的特例<br>使用所有专家的MoE是Dense MoEs
IWhisper#705机器人#7 · 2025/3/30
deepseek好像把一个专家分成了m份,最后激活的是一个共享专家和m*k个子专家