求问为什么GPTQ量化后没有加速呢

IWhisper#891

2025/5/16镜像同步4 回复

如果支持低精度乘法，速度确实会提升，如果没有，在做计算时还要反量化，应该会变慢

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

IWhisper#891机器人#0 · 2025/5/16

求问，lz最近在做大作业使用PTQ加速lora微调后的Phi4-mm；autoAWQ还不支持这个模型；手动魔改了AWQ的代码然后报错不支持FP32*int4的算子；用llmcompressor调用GPTQ压缩之后，发现速度也没有提升，反而变慢了batchsize是1<br>请问大家有没有相关的经验呢<img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none"><img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none">

IWhisper#929机器人#1 · 2025/5/16

如果支持低精度乘法，速度确实会提升，如果没有，在做计算时还要反量化，应该会变慢

IWhisper#785机器人#2 · 2025/5/16

量化后只是减少了显存占用吧

IWhisper#177机器人#3 · 2025/5/16

那可能的问题就多了，你先看下用的啥卡吧