[swin-trans]分布式训练的debug：ValueError: Error initializing torch.distributed using env:// rendezvous: en

时间：2023-10-21 10:00:12浏览次数：46

标签：swin initializing torch distributed MASTER env rendezvous using

在用torch.distributed.init_process_group(backend='nccl', init_method='env://', world_size=world_size, rank=rank)时，出现

1、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but not set

解决

加入

os.environ['MASTER_ADDR'] = 'localhost'

2、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_PORT expected, but not set

解决

加入

os.environ['MASTER_PORT'] = '12345'

标签：swin,initializing,torch,distributed,MASTER,env,rendezvous,using
From： https://www.cnblogs.com/ltkekeli1229/p/17778506.html

Pytorch深度学习环境配置 | NVIDIA-driver + Pytorch + miniconda
本贴为实战，看理论请移步【地表最强】深度学习环境配置攻略|【nvidia-driver】,【cudatoolkit】,【cudnn】,【pytorch】为了验证我的环境配置方法没有问题，我特意租了两小时云服务器来从0配置环境。云服务器厂家：Ucloudubuntu22.043090*21.装NVIDIA-driver参考：http......
《动手学深度学习 Pytorch版》 9.8 束搜索
本节将介绍几大：贪心搜索（greedysearch）策略穷举搜索（exhaustivesearch）束搜索（beamsearch）9.8.1贪心搜索贪心搜索已用于上一节的序列预测。对于输出序列的每一时间步\(t'\)，都从\(\boldsymbol{Y}\)中找到具有最高条件概率的词元，即：\[y_{t'}=\mathop{\arg\max}\limits......
《动手学深度学习 Pytorch版》 9.6 编码器-解码器架构
为了处理这种长度可变的输入和输出，可以设计一个包含两个主要组件的编码器-解码器（encoder-decoder）架构：编码器（encoder）：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。解码器（decoder）：它将固定形状的编码状态映射到长度可变的序列。9.6.1编码器编......
《动手学深度学习 Pytorch版》 9.7 序列到序列学习（seq2seq）
循环神经网络编码器使用长度可变的序列作为输入，将其编码到循环神经网络编码器固定形状的隐状态中。为了连续生成输出序列的词元，独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。要点：“<eos>”表示序列结束词元，一旦输......
使用Pytorch Geometric 进行链接预测代码示例
PyTorchGeometric(PyG)是构建图神经网络模型和实验各种图卷积的主要工具。在本文中我们将通过链接预测来对其进行介绍。链接预测答了一个问题:哪两个节点应该相互链接?我们将通过执行“转换分割”，为建模准备数据。为批处理准备专用的图数据加载器。在TorchGeometric中构建一个......
PyTorch大更新，编译代码速度暴增35倍！视觉模型一键部署，头显Quest 3可用
前言最近，在Pytorch发布会上，发布移动端Pytorch解决方案ExecuTorch，实现在移动端设备上大范围地部署AI工具，并推出最新版本Pytorch2.1，推理速度大幅提升。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典......
《动手学深度学习 Pytorch版》 9.5 机器翻译与数据集
机器翻译（machinetranslation）指的是将序列从一种语言自动翻译成另一种语言，基于神经网络的方法通常被称为神经机器翻译（neuralmachinetranslation）。importosimporttorchfromd2limporttorchasd2l9.5.1下载和预处理数据集“Tab-delimitedBilingualSentencePairs”......
《动手学深度学习 Pytorch版》 9.4 双向循环神经网络
之前的序列学习中假设的目标是在给定观测的情况下对下一个输出进行建模，然而也存在需要后文预测前文的情况。9.4.1隐马尔可夫模型中的动态规划数学推导太复杂了，略。9.4.2双向模型双向循环神经网络（bidirectionalRNNs）添加了反向传递信息的隐藏层，以便更灵活地处理此类信息。9......
LSTM-CRF模型详解和Pytorch代码实现
在快速发展的自然语言处理领域，Transformers已经成为主导模型，在广泛的序列建模任务中表现出卓越的性能，包括词性标记、命名实体识别和分块。在Transformers之前，条件随机场(CRFs)是序列建模的首选工具，特别是线性链CRFs，它将序列建模为有向图，而CRFs更普遍地可以用于任意图。本文中crf......
《动手学深度学习 Pytorch版》 9.2 长短期记忆网络（LSTM）
解决隐变量模型长期信息保存和短期输入缺失问题的最早方法之一是长短期存储器（longshort-termmemory，LSTM）。它与门控循环单元有许多一样的属性。长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近20年。9.2.1门控记忆元为了记录附加的信息，长短期记......

[swin-trans]分布式训练的debug：ValueError: Error initializing torch.distributed using env:// rendezvous: en

1、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but not set

解决

2、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_PORT expected, but not set

解决

相关文章

赞助商

阅读排行