返回信息流如果支持低精度乘法,速度确实会提升,如果没有,在做计算时还要反量化,应该会变慢
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8295753同步于 2025/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
求问为什么GPTQ量化后没有加速呢
IWhisper#891
2025/5/16镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
求问,lz最近在做大作业使用PTQ加速lora微调后的Phi4-mm;autoAWQ还不支持这个模型;手动魔改了AWQ的代码然后报错不支持FP32*int4的算子;用llmcompressor调用GPTQ压缩之后,发现速度也没有提升,反而变慢了batchsize是1<br>请问大家有没有相关的经验呢<img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none"><img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none">