返回信息流一篇推荐系统论文的源代码 pytorch0.3.0 我用.cuda()把模型和数据移到gpu上之后 训练还比cpu慢了…
数据集很小,只有几十兆(用户的评分记录)
网络是简单的mlp+attention
cpu是e5-2620 v4
gpu是tesla k40c
一直以为用gpu都会加速…不知道这是什么情况
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33117同步于 2019/1/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
pytorch用gpu反而减速是什么情况
NPHard
2019/1/15镜像同步21 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
数据量太小,也许是GPU的接口速度比较慢?数据在内存与GPU之间交互也会耗时的,一般在计算量比较大的时候应GPU才能看出来效果。。。。我也是小白,不是很懂[ema13]
copy速度看一下
【 在 NPHard (抽象语法树) 的大作中提到: 】
: 一篇推荐系统论文的源代码 pytorch0.3.0 我用.cuda()把模型和数据移到gpu上之后 训练还比cpu慢了…
: 数据集很小,只有几十兆(用户的评分记录)
: 网络是简单的mlp+attention
: ...................
有道理 可能这点数据量 计算还没有交互时间长
【 在 fiphoenix (hh) 的大作中提到: 】
: 数据量太小,也许是GPU的接口速度比较慢?数据在内存与GPU之间交互也会耗时的,一般在计算量比较大的时候应GPU才能看出来效果。。。。我也是小白,不是很懂[ema13]
也可能,这个模型就是串行的
【 在 sworduo (君道) 的大作中提到: 】
: 我也是小白,不过我猜可能只有当网络有很多可以并行计算的节点的时候才能加速?串行大概率没cpu快。。
【 在 byr0427 的大作中提到: 】
: batch多大?如果SGD的话那基本没有利用到gpu的并行
batch_size32(每个训练样本是[userid, postive_item_id, negtive_item_id]),优化器用的RMSprop