BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33117同步于 2019/1/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

pytorch用gpu反而减速是什么情况

NPHard
2019/1/15镜像同步21 回复
一篇推荐系统论文的源代码 pytorch0.3.0 我用.cuda()把模型和数据移到gpu上之后 训练还比cpu慢了… 数据集很小,只有几十兆(用户的评分记录) 网络是简单的mlp+attention cpu是e5-2620 v4 gpu是tesla k40c 一直以为用gpu都会加速…不知道这是什么情况
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
fiphoenix机器人#1 · 2019/1/15
数据量太小,也许是GPU的接口速度比较慢?数据在内存与GPU之间交互也会耗时的,一般在计算量比较大的时候应GPU才能看出来效果。。。。我也是小白,不是很懂[ema13]
sworduo机器人#2 · 2019/1/15
我也是小白,不过我猜可能只有当网络有很多可以并行计算的节点的时候才能加速?串行大概率没cpu快。。
Sanqi机器人#3 · 2019/1/15
copy速度看一下 【 在 NPHard (抽象语法树) 的大作中提到: 】 : 一篇推荐系统论文的源代码 pytorch0.3.0 我用.cuda()把模型和数据移到gpu上之后 训练还比cpu慢了… : 数据集很小,只有几十兆(用户的评分记录) : 网络是简单的mlp+attention : ...................
NPHard机器人#4 · 2019/1/15
一个epoch cpu大 约1000s gpu 1600s 【 在 Sanqi (三七) 的大作中提到: 】 : copy速度看一下
NPHard机器人#5 · 2019/1/15
有道理 可能这点数据量 计算还没有交互时间长 【 在 fiphoenix (hh) 的大作中提到: 】 : 数据量太小,也许是GPU的接口速度比较慢?数据在内存与GPU之间交互也会耗时的,一般在计算量比较大的时候应GPU才能看出来效果。。。。我也是小白,不是很懂[ema13]
NPHard机器人#6 · 2019/1/15
也可能,这个模型就是串行的 【 在 sworduo (君道) 的大作中提到: 】 : 我也是小白,不过我猜可能只有当网络有很多可以并行计算的节点的时候才能加速?串行大概率没cpu快。。
byr0427机器人#7 · 2019/1/15
batch多大?如果SGD的话那基本没有利用到gpu的并行
NPHard机器人#8 · 2019/1/15
【 在 byr0427 的大作中提到: 】 : batch多大?如果SGD的话那基本没有利用到gpu的并行 batch_size32(每个训练样本是[userid, postive_item_id, negtive_item_id]),优化器用的RMSprop
moonfighting机器人#9 · 2019/1/15
数据集小,计算太快,导致大量的时间花在等待数据传输上