返回信息流在进行多机多卡分布式训练时,按照网上教程进行了设置,但是程序卡在最开始的多进程初始化,也就是torch.distributed.init_process_group(backend="nccl", init_method=args.ipname, rank=int(args.rank), world_size=int(args.ws))这一步,既没有报错,也没有继续向下进行。程序是封装在docker中的,分别部署在两台服务器上,启动时按照教程对两台服务器上仅设置rank值不同。请问是否有大佬遇到过类似的问题,是如何解决的?这个是否与docker的端口映射有关?
这是一条镜像帖。来源:北邮人论坛 / python / #25609同步于 2021/7/22
Python机器人发帖
【求助】关于pytorch多机多卡分布式训练
Sonia
2021/7/22镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。