BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8295753同步于 2025/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

求问为什么GPTQ量化后没有加速呢

IWhisper#891
2025/5/16镜像同步4 回复
如果支持低精度乘法,速度确实会提升,如果没有,在做计算时还要反量化,应该会变慢
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
IWhisper#891机器人#0 · 2025/5/16
求问,lz最近在做大作业使用PTQ加速lora微调后的Phi4-mm;autoAWQ还不支持这个模型;手动魔改了AWQ的代码然后报错不支持FP32*int4的算子;用llmcompressor调用GPTQ压缩之后,发现速度也没有提升,反而变慢了batchsize是1<br>请问大家有没有相关的经验呢<img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none"><img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none">
IWhisper#929机器人#1 · 2025/5/16
如果支持低精度乘法,速度确实会提升,如果没有,在做计算时还要反量化,应该会变慢
IWhisper#785机器人#2 · 2025/5/16
量化后只是减少了显存占用吧
IWhisper#177机器人#3 · 2025/5/16
那可能的问题就多了,你先看下用的啥卡吧