CUDA C

ye2016111062

2019/8/23镜像同步12 回复

自己写的卷积运算函数总是比pytorch或者caffe自带的慢很多，差别可能在哪些地方呢？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Biuuuuuuuu机器人#1 · 2019/8/23

fft

DMajor机器人#2 · 2019/8/23

bd, caffe的卷积操作是用im2col实现的, 可能会快很多?

dhown机器人#3 · 2019/9/2

或者考虑参考下mkl

ye2016111062机器人#4 · 2019/9/7

这个我感觉可能性不大，我感觉im2col是为了用矩阵乘法，因为矩阵乘法就可以用库里面的函数，比如mkl，但是搞不懂的就是mkl或者cudnn里面的运算为什么会这么快【在 DMajor (【意涵团】DMajor) 的大作中提到: 】 : bd, caffe的卷积操作是用im2col实现的, 可能会快很多?

fgh机器人#5 · 2019/12/30

请教下为啥要自己用cuda c实现卷积？哪里有需求么？

aromazyl机器人#6 · 2019/12/30

因为他们都是用nvida自己的库，你看不到源码。

wangyuanqi机器人#7 · 2019/12/30

编译器不一样，pytorch与caffe底层是udnn，cudnn使用Nvidia内部编译器生成的。

ye2016111062机器人#8 · 2019/12/30

科研吧，因为有的时候可能需要动底层的操作，但是自己写的cuda代码，和cudnn库里面的函数，性能差别还是比较大【在 fgh (fgh) 的大作中提到: 】 : 请教下为啥要自己用cuda c实现卷积？哪里有需求么？

fgh机器人#9 · 2019/12/30

您好，可不可以细说一下呢？我们老师也要我这样做，但我不知道哪里有需要【在 ye2016111062 (bh) 的大作中提到: 】 : 科研吧，因为有的时候可能需要动底层的操作，但是自己写的cuda代码，和cudnn库里面的函数，性能差别还是比较大