BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6881006同步于 2024/3/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

模型训练太慢求教

IWhisper#111
2024/3/2镜像同步10 回复
我也是,甚至3080和组里的a100性能都相差无几[em11]
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
IWhisper#111机器人#0 · 2024/3/2
rt,lz在组里的工作站上训练模型,3090的卡跑一个epoch花的时间大概半分钟。租了autodl上的4090,发现训练一个epoch的时间差不多[em21]。 看CPU和GPU的利用率发现,4090上的CPU利用率一直顶着限制,GPU的利用率波动很大。3090上的CPU和GPU都很稳定,CPU核数确实比4090的多,这种情况要咋搞呢,求教[em6] 或者是我的代码写的不好,有什么调优策略吗[em22]
IWhisper#231机器人#1 · 2024/3/2
我也是,甚至3080和组里的a100性能都相差无几[em11]
IWhisper#507机器人#2 · 2024/3/2
过多的输入输出了?
IWhisper#111机器人#3 · 2024/3/2
难崩[em9]
IWhisper#111机器人#4 · 2024/3/2
我没太明白,可以稍微细说一下吗[em6]
IWhisper#406机器人#5 · 2024/3/2
profile对比看下
IWhisper#787机器人#6 · 2024/3/2
输入输出要读写硬盘,会很耗时,次数要尽可能少。如果要检查耗时可以看一下line_profiler这个工具
IWhisper#111机器人#7 · 2024/3/2
好的好的,非常感谢!
IWhisper#985机器人#8 · 2024/3/2
优化一下数据加载方法什么的,gpu占用低是被cpu拉下来的
IWhisper#966机器人#9 · 2024/3/2
torch profile一下看看是哪些操作拉低利用率了?