返回信息流要写cuda算子一般用的cpp,python写算子是用triton,在线程块级别写,然后triton再给你优化。后者写起来简单,但性能肯定达不到前者
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8098537同步于 2025/2/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
ai infra求问
IWhisper#578
2025/2/27镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
要写cuda算子一般用的cpp,python写算子是用triton,在线程块级别写,然后triton再给你优化。后者写起来简单,但性能肯定达不到前者
嗷嗷谢谢大佬<br>【 在 IWhisper#257 的大作中提到: 】<br><font class="f006">: 要写cuda算子一般用的cpp,python写算子是用triton,在线程块级别写,然后triton再给你优化。后者写起来简单,但性能肯定达不到前者 </font>