北京超级云计算GPU服务器的使用教程 | 您所在的位置:网站首页 › pycharm怎么计算 › 北京超级云计算GPU服务器的使用教程 |
北京超级云计算中心(北京超算云)是一个很不错的训练深度学习模型的平台(主要是可以白嫖200元的GPU算力资源),官网连接。申请账号现在应该还送200元(我申请使用的是GPU服务器)。在官网中填写申请信息,然后等着客户经理给你打电话,然后把你的需求说清楚,第二天就能拿到账号了!! 注意:注册好的账号和平台使用说明,会通过邮箱发送给你。 一、拿到账号之后,开始进行如下操作: ①在官网下载并安装PC客户端,安装好并登录自己的账号,如图所示 ②点击SSH软件登陆——>点击 连接 ③出现此界面表示登陆成功。(此界面开头的一段文字简单的告诉了用户北京超算云的使用规则) 二、上传需要训练的模型的文件夹 ①首先先要在自己的电脑上将代码都编写好,我个人使用的是YOLOv5_5.0的版本进行训练的,那就以它为例子进行讲解了。 ②打开winscp软件,进行文件传输,将本地电脑上准备训练的代码、数据集等文件夹上传到超算云的服务器中(涉密数据集尽量不要传) 三、编写训练脚本(.sh类型的) 这个根据每个人的模型的不同而不同,可以请平台的工程师替你编写一个。 以我的为例: #!/bin/bash module load anaconda/2020.11 module load cuda/11.4 source activate torch1.10 export PYTHONUNBUFFERED=1 python train.py四、进行模型的训练 ①首先安装自己要训练模型的依赖库(打开超算云桌面上的SSH,在SSH界面中安装) 还是以YOLOv5_5.0为例子 1、加载 anaconda/2020.11。 module load anaconda/2020.11 2、创建一个名为torch.10(名字可以自己起,必须是英文的)的虚拟环境,python使用3.8的版本。 conda creat -n torch1.10 Python=3.8 3、创建完成后,激活虚拟环境(后续的操作都是在该虚拟环境下进行的) 先查看已经安装的环境 conda env list (得到的输出,带*号的代表目前激活的环境) 使用 source activate torch1.10 (激活刚才创建的虚拟环境) 4、根据模型的依赖库 自己安装即可 yolov5_5.0所需的环境: pip install -r requirements.txt base ----------------------------------------matplotlib>=3.2.2 numpy>=1.18.5 opencv-python>=4.1.2 Pillow PyYAML>=5.3.1 scipy>=1.4.1 torch>=1.7.0 torchvision>=0.8.1 tqdm>=4.41.0 logging -------------------------------------tensorboard>=2.4.1 wandb plotting ------------------------------------seaborn>=0.11.0 pandas export -------------------------------------- coremltools>=4.1 onnx>=1.8.1 scikit-learn==0.19.2 # for coreml quantization extras --------------------------------------thop # FLOPS computation pycocotools>=2.0 # COCO mAP 五、开始训练 打开超算云的SSH软件,依次输入以下命令 module load anaconda/2020.11 conda env list source activate torch.10 cd 所在文件夹路径 (我的就是:cd /data/run01/scz1352/YOLOv5-5.0) sbatch --gpus=1 ./sub.sh 然后就可顺利训练了 |
CopyRight 2018-2019 实验室设备网 版权所有 |