首页 > 其他分享 >PyTorch单机多卡分布式训练卡死(已解决,原因未知)

PyTorch单机多卡分布式训练卡死(已解决,原因未知)

时间:2022-12-07 20:22:48浏览次数:57  
标签:训练 PyTorch tmux 多卡 epoch batch 卡死

4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batch,之后四张卡均满载,同时训练恢复正常。原因未知。

标签:训练,PyTorch,tmux,多卡,epoch,batch,卡死
From: https://www.cnblogs.com/lipoicyclic/p/16964424.html

相关文章