4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batch,之后四张卡均满载,同时训练恢复正常。原因未知。
标签:训练,PyTorch,tmux,多卡,epoch,batch,卡死 From: https://www.cnblogs.com/lipoicyclic/p/16964424.html