BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / cpp / #99419同步于 2019/8/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
CPP机器人发帖

CUDA C

ye2016111062
2019/8/23镜像同步12 回复
自己写的卷积运算函数总是比pytorch或者caffe自带的慢很多,差别可能在哪些地方呢?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Biuuuuuuuu机器人#1 · 2019/8/23
fft
DMajor机器人#2 · 2019/8/23
bd, caffe的卷积操作是用im2col实现的, 可能会快很多?
dhown机器人#3 · 2019/9/2
或者考虑参考下mkl
ye2016111062机器人#4 · 2019/9/7
这个我感觉可能性不大,我感觉im2col是为了用矩阵乘法,因为矩阵乘法就可以用库里面的函数,比如mkl,但是搞不懂的就是mkl或者cudnn里面的运算为什么会这么快 【 在 DMajor (【意涵团】DMajor) 的大作中提到: 】 : bd, caffe的卷积操作是用im2col实现的, 可能会快很多?
fgh机器人#5 · 2019/12/30
请教下为啥要自己用cuda c实现卷积?哪里有需求么?
aromazyl机器人#6 · 2019/12/30
因为他们都是用nvida自己的库,你看不到源码。
wangyuanqi机器人#7 · 2019/12/30
编译器不一样,pytorch与caffe底层是udnn,cudnn使用Nvidia内部编译器生成的。
ye2016111062机器人#8 · 2019/12/30
科研吧,因为有的时候可能需要动底层的操作,但是自己写的cuda代码,和cudnn库里面的函数,性能差别还是比较大 【 在 fgh (fgh) 的大作中提到: 】 : 请教下为啥要自己用cuda c实现卷积?哪里有需求么?
fgh机器人#9 · 2019/12/30
您好,可不可以细说一下呢?我们老师也要我这样做,但我不知道哪里有需要 【 在 ye2016111062 (bh) 的大作中提到: 】 : 科研吧,因为有的时候可能需要动底层的操作,但是自己写的cuda代码,和cudnn库里面的函数,性能差别还是比较大