首页 > 其他分享 >Pytorch rendezvous 分布式

Pytorch rendezvous 分布式

时间:2023-06-02 10:33:09浏览次数:54  
标签:https elastic 后端 pytorch Pytorch PyTorch rendezvous 分布式

PyTorch中的rendezvous后端是一种服务,它帮助分布式训练作业中的进程相互发现并协商角色和等级。它还提供了一个屏障和一个一致的作业成员和状态视图。

 

rendezvous后端是作为torch.distributed.elastic.rendezvous.RendezvousHandler的子类实现的,它定义了创建、加入和销毁rendezvous的接口。rendezvous后端还需要为rendezvous提供容错和弹性,这意味着它可以处理节点故障和训练过程中节点数量的变化。

 

PyTorch提供了一些内置的rendezvous后端,例如:

C10dRendezvousBackend:使用C10d存储(默认为TCPStore)作为rendezvous后端。使用C10d存储的主要优点是它不需要第三方依赖(如etcd)来建立rendezvous2。

EtcdRendezvousBackend:使用启用了v2 api的etcd服务器作为rendezvous后端。使用etcd的优点是它为rendezvous提供了容错和弹性2。

 

要在PyTorch中使用rendezvous后端,你需要在使用torchrun或torch.distributed.launch启动你的训练脚本时指定一些选项。

这些选项包括:

–rdzv_id:一个唯一的作业id(由参与作业的所有节点共享)

–rdzv_backend:用于处理rendezvous的后端的名称

–rdzv_endpoint:rendezvous后端运行的端点;通常以host:port的形式

 

附官方文档链接:https://pytorch.org/docs/stable/elastic/rendezvous.html

(1) Rendezvous — PyTorch 2.0 documentation. https://pytorch.org/docs/stable/elastic/rendezvous.html.

(2) pytorch/c10d_rendezvous_backend.py at main - GitHub. https://github.com/pytorch/pytorch/blob/main/torch/distributed/elastic/rendezvous/c10d_rendezvous_backend.py.

(3) torchrun (Elastic Launch) — PyTorch 2.0 documentation. https://pytorch.org/docs/stable/elastic/run.html.

 

标签:https,elastic,后端,pytorch,Pytorch,PyTorch,rendezvous,分布式
From: https://www.cnblogs.com/sddai/p/17451054.html

相关文章

  • SequoiaDB分布式数据库2023.5月刊
    本月看点速览行业认可,荣登中国最佳信创厂商系列榜单聚焦创新,入选2022年大湾区科创企业创新TOP10科技为本,协同发展,多家组织机构到访青杉计划2023已开启,一起攀登更高的“杉” 行业认可,荣登中国最佳信创厂商系列榜单近日,由第一新声联合天眼查发起的2023年中国最佳信创厂......
  • 安装pytorch
    pytorch官网https://pytorch.org/创建一个环境名为:pytorchpython版本为3.9激活;然后输入:condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.7-cpytorch-cnvidia安装最好离线安装测试是否安装成功importtorch......
  • Hadoop伪分布式安装
    Hadoop伪分布式安装安装环境:Centos7.5,只少2核4G提前准备:Linux中要安装JDK8,Zookeeper-3.5.71.关闭防火墙systemctlstopfirewalldsystemctldisablefirewalld2.修改主机名Hadoop集群中,主机名中尽量不要出现-或者_vim/etc/hostname将原来的主机名删除,添加自己指定的主机名3......
  • Hadoop伪分布式安装
    Hadoop伪分布式安装安装环境:Centos7.5,只少2核4G提前准备:Linux中要安装JDK8,Zookeeper-3.5.71.关闭防火墙systemctlstopfirewalldsystemctldisablefirewalld2.修改主机名Hadoop集群中,主机名中尽量不要出现-或者_vim/etc/hostname将原来的主机名删除,添加自己指定的主机名3......
  • Hadoop伪分布式安装
    Hadoop伪分布式安装安装环境:Centos7.5,只少2核4G提前准备:Linux中要安装JDK8,Zookeeper-3.5.71.关闭防火墙systemctlstopfirewalldsystemctldisablefirewalld2.修改主机名Hadoop集群中,主机名中尽量不要出现-或者_vim/etc/hostname将原来的主机名删除,添加自己指定的主机名3......
  • Hadoop伪分布式安装
    Hadoop伪分布式安装安装环境:Centos7.5,只少2核4G提前准备:Linux中要安装JDK8,Zookeeper-3.5.71.关闭防火墙systemctlstopfirewalldsystemctldisablefirewalld2.修改主机名Hadoop集群中,主机名中尽量不要出现-或者_vim/etc/hostname将原来的主机名删除,添加自己指定的主机名3.需......
  • Hazelcast分布式计算的demo
    下面是一个使用Java实现的Hazelcast分布式计算的示例代码:importcom.hazelcast.core.Hazelcast;importcom.hazelcast.core.HazelcastInstance;importcom.hazelcast.core.IExecutorService;importcom.hazelcast.core.Member;importjava.io.Serializable;importjava.util......
  • 服务器并发量的简单计算以及简单的分布式解决方案
      上课画的图,感觉不错......
  • 分布式队列编程:模型、实战
    介绍作为一种基础的抽象数据结构,队列被广泛应用在各类编程中。大数据时代对跨进程、跨机器的通讯提出了更高的要求,和以往相比,分布式队列编程的运用几乎已无处不在。但是,这种常见的基础性的事物往往容易被忽视,使用者往往会忽视两点:使用分布式队列的时候,没有意识到它是队列。有具体需......
  • 分布式队列编程优化篇
    前言“分布式队列编程”是一个系列文,之前我们已经发布了《分布式队列编程模型、实战》,主要剖析了分布式队列编程模型的需求来源、定义、结构以及其变化多样性;根据作者在新美大实际工作经验,给出了队列式编程在分布式环境下的一些具体应用。本文将重点阐述工程师运用分布式队列编程构......