BYR Achieve · 镜像论坛

【求助】关于pytorch多机多卡分布式训练

2021/7/22镜像同步0 回复

在进行多机多卡分布式训练时，按照网上教程进行了设置，但是程序卡在最开始的多进程初始化，也就是torch.distributed.init_process_group(backend="nccl", init_method=args.ipname, rank=int(args.rank), world_size=int(args.ws))这一步，既没有报错，也没有继续向下进行。程序是封装在docker中的，分别部署在两台服务器上，启动时按照教程对两台服务器上仅设置rank值不同。请问是否有大佬遇到过类似的问题，是如何解决的？这个是否与docker的端口映射有关？

订阅后，新回复会通过你的通知中心匿名送达。