大模型训练推理加速是怎么做的?

2024/7/23镜像同步8 回复

在家背背八股，学得去公司学

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

IWhisper#20机器人#0 · 2024/7/23

怎么学啊，还是必须得去公司学

IWhisper#285机器人#1 · 2024/7/23

在家背背八股，学得去公司学

IWhisper#285机器人#2 · 2024/7/23

11 组有做的，可以问问去

IWhisper#113机器人#3 · 2024/7/23

有哪些八股呢

IWhisper#285机器人#4 · 2024/7/23

训练主要是并行：dp/ddp/mp（tp）/sp/ep/zero，原理是啥，框架是啥，怎么估算显存开销，怎么估算通信开销，多种并行怎么拆分，还有一些杂项，allreduce 这些算子都干啥，有啥开销

IWhisper#285机器人#5 · 2024/7/23

推理我想不太全，大概想想有 flash attention 123（哦对也可以问 fp8 训练推理），什么特性什么原理，pagedattention，flash decoding，还有一些具体阶段的开销，算法，比如 prefill 和 decode 的开销怎么估算，怎么优化

IWhisper#285机器人#6 · 2024/7/23

还有一个就是量化，精度相关的比如 fp/bf，loss scale，低精度方法原理和区别，gptq/gguf/awq/int8 这些，还有低精度底数和精度位的不同排布，可以看看 mit han lab 的课，我不搞这个方向

IWhisper#285机器人#7 · 2024/7/23

我不是做 mlsys 的，说的不全，仅供参考