复现了很长很长时间……终于能跑出来了。记录一下有哪些需要注意的地方。
由于自己之前完全没有任何服务器跑代码的经验,于是过程比较的痛苦。。。
- torch 安装
这 b 玩意捣鼓了半天。。主要就两个点
- 要选择不高于当前服务器支持的 cuda 版本的 torch。比如服务器 cuda=11.6,那我就不能装 11.8 的 cuda
- 要用
-i 清华源
来加速 pip 的安装过程。
-
hydra 安装
有两个包 hydra-core 和 hydra-submitit-launcher,注意版本必须和 config_env 中的对上。 -
tensorflow 安装
tensorboard 是基于 tensorflow 运行的,所以必须安装 tensorflow,而 tensorflow 的安装会默认把 numpy 的版本升级,造成错误,需要手动 downgrade 一下 numpy(uninstall 之后再安装,版本可以设为 1.20.3)。 -
其它依赖包的安装
参考 config_env,不再赘述 -
config.yaml 中路径不要设错了
一开始路径设错了怎么都找不到结果。。sigh