Pytorch 分布式训练
Pytorch分布式训练
参数说明:
world_size:为分布式主机的个数。介绍都是说是进程, 实际就是机器的个数, 例如两台机器一起训练的话, world_size就设置为2
rank:为分布式主机的编号。该参数指定主机的优先级。rank=0 为 master 节点。
**区分主节点和从节点的, 主节点为0, 剩余的为了1-(N-1), N为要使用的机器的数量, 也就是world_size
**
- local_rank:进程内,GPU 编号。
rank是标识主机和从机的, world_size是标识使用几个主机。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 像一个灯塔一样,燃烧自我,照射光明!