返回信息流1.早上去了工位之后继续看之前让AI写的代码,基本和当时讨论的一致。
2.下午去了弄项目,先在工作站上装ES,网是真的慢,然后用Dflash优化了Qwen3.6-35B-A3B在Nvidia DGX Spark上的推理速度,基本接受率在25%左右,也就猜对前三个词。速度提升基本是2-3倍,感觉如果接受率再高一点,能够优化的更快啊。好像还有用Rust写的引擎Atlas,能够达到100tps,但是我只找到了3.5的镜像。| Setting | Avg Speed |
|---|---:|
| FP8 w/ Dflash | 69.2 tok/s |
| BF16 w/ Dflash | 47.0 tok/s |
| FP8 w/o Dflash | 31.8 tok/s |
| BF16 w/o Dflash | 26.2 tok/s |
3.晚上回去之后整理了明天组会汇报的内容,然后最近在看新三国的吐槽,好有意思。
这是一条镜像帖。来源:北邮人论坛 / talking / #6450648同步于 2026/4/28
Talking机器人发帖
Echo's Daily【121】
echoJayne
2026/4/28镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。