Pytorch分布式训练

参数说明:

  1. world_size:为分布式主机的个数。介绍都是说是进程, 实际就是机器的个数, 例如两台机器一起训练的话, world_size就设置为2

  2. rank:为分布式主机的编号。该参数指定主机的优先级。rank=0 为 master 节点。

**区分主节点和从节点的, 主节点为0, 剩余的为了1-(N-1), N为要使用的机器的数量, 也就是world_size
**

  1. local_rank:进程内,GPU 编号。

rank是标识主机和从机的, world_size是标识使用几个主机。


参考链接:https://www.jianshu.com/p/77363710d15d