刚开始接触租服务器跑代码,之前的是LapTop4060显存不够用,随记下来防止忘记。
第一步:找到自己心意的服务器网站(蓝耘)https://cloud.lanyun.net/#/registerPage?promoterCode=
点击控制台——>容器实例——>租用新实例——>选择自己心仪的服务器,建议选择剩余数量多的,免得你关机后下次开机没位子。假设这里选用的4090,gpu数量为1,选择系统为pytroch2.3.1,ubuntu22.04,cuda12.1
import torch
print(torch.__version__) # 输出当前安装的PyTorch版本
import torch
print(torch.version.cuda) # 查看当前PyTorch中使用的CUDA版本
#此为找pytorch和cuda版本的代码
#注:可以在实例处点击:更多——>保存镜像,保存环境。对开多服务器跑消融实验或者对比实验很舒服
购买后会生成实例(点击控制台——>容器实例)这里可以找到(Windows键加上R)跳出运行框输入cmd跳转到终端,复制SSH黏贴到终端,然后输入yes,接下来复制密码黏贴到终端。
将文件都保存在root/lanyun-tmp当中,ll 查看当前文档有什么文件,(cd 文档名) 可以进入该文件夹,(python 文件名.py) 可以运行该程序
下载FileZilla - The free FTP solution (filezilla-project.org)一路确定,点everyone,有勾的地方都打勾,安装完成后打开。
点击1,点击2,3协议处选择SFTP,4为[]内的一串字符,5为:后面的数字,6为root,7为点击控制台——>容器实例中的密码复制,与之前连接ssh一样的密码。连接完毕后记得先放environment.yal在root/lanyun-tmp文件夹内,拖拽即可,传输完后输入cd lanyun-tmp——>conda env create -f environment.yml 然后不管他了让他创造吧,接着拖拽你的代码和数据集放在root/lanyun-tmp文件夹内。接下来开始训练即可。
注:如果发现服务器跑到一半GPU为0没在运行的情况或者client_loop: send disconnect: Connection reset可以试试
sudo apt-get install tmux
tmux new -s mysession
python train.py
这个代码