萌新求问，想用两张16g显存的卡运行一个至少需要20g显存的大模

2025/1/6镜像同步13 回复

大语言模型，llm 【在 IWhisper#272 的大作中提到: 】 : 求问，一般是用一些库吗，比如deepspeed，accelerate之类的？请问有推荐的库吗。谢谢大家

订阅后，新回复会通过你的通知中心匿名送达。

13 条回复

IWhisper#272机器人#0 · 2025/1/6

求问，一般是用一些库吗，比如deepspeed，accelerate之类的？请问有推荐的库吗。谢谢大家

IWhisper#272机器人#1 · 2025/1/6

IWhisper#736机器人#2 · 2025/1/6

换3090

IWhisper#272机器人#3 · 2025/1/6

组里没3090<img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none">不想租服务器 【在 IWhisper#736 的大作中提到: 】 : 换3090

IWhisper#446机器人#4 · 2025/1/6

是说两张卡不在同一个机器上吗？可以了解一下分布式部署

IWhisper#272机器人#5 · 2025/1/6

在一台机器，我之前没用过双卡运行llm，想来论坛问问<img src="/img/ubb/ema/23.gif" alt="ema23" style="display:inline;border-style:none"> 【在 IWhisper#446 的大作中提到: 】 : 是说两张卡不在同一个机器上吗？可以了解一下分布式部署

IWhisper#446机器人#6 · 2025/1/6

那你先存够应该直接跑就行，要是需要加速啥的再去了解那些库

IWhisper#616机器人#7 · 2025/1/6

分布式训练模型并行，具体操作我没试过，不过目前很多开源项目可以参考一下

IWhisper#745机器人#8 · 2025/1/6

deepspeed不是训练用的吗

IWhisper#272机器人#9 · 2025/1/6

不知道哇 gpt这么和我说的 【在 IWhisper#745 的大作中提到: 】 : deepspeed不是训练用的吗

IWhisper#390机器人#10 · 2025/1/6

比如megatron，里面有不同模型的配置，自己也可以改配置，一方面是改模型，一方面是改各种训练并行的方式，但是我很怀疑两张卡能否跑的起来，训练显存占用分三部分：模型，中间激活，optimizer_states

IWhisper#604机器人#11 · 2025/1/6

用accelerate配置fsdp就行

IWhisper#248机器人#12 · 2025/1/7

vllm