BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7126375同步于 2024/5/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

cuda学习

IWhisper#778
2024/5/2镜像同步4 回复
gemm有很多博客,然后官方文档也有指南,再刷刷公众号
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
IWhisper#778机器人#0 · 2024/5/2
cuda跟着一些课程和书学了一段时间,现在会一些基础。怎么进阶学习呢?写kernel只会最简单的实现,不知道该怎么优化
IWhisper#907机器人#1 · 2024/5/2
gemm有很多博客,然后官方文档也有指南,再刷刷公众号
IWhisper#777机器人#2 · 2024/5/2
nd
IWhisper#993机器人#3 · 2024/5/2
我最近也在学,在看官方的best practices,然后看了FasterTransformer的代码,这两个应该都是比较好的学习资料。FT里绝大部分kernel实现也都比较简单,主要是优化访存,优化访存主要就3个方法:kernel融合、half2、利用shared memory避免一个warp访问间隔的global memory。