北京超级云计算中心操作指南

本人在实验室做深度学习图像领域相关研究,前期使用实验室的设备 2080Ti ,运行时间较慢;跑一轮需要6个小时以上;后来开始使用超算,运行速度比实验室快多了,但超算使用前需要相关配置,使用难度相较于本地会难一点,本文以北京超级云计算中心和 yolov5 训练为例,详细介绍超算的环境安装与计算过程。

文章目录

  • **北京超级云计算中心操作指南**
    • 一、获取账号
    • 二、安装环境
      • 2.1 安装系统软件
      • 2.2 配置 yolov5 深度学习环境
    • 三、训练数据
      • 3.1 创建 sub.sh 文件
      • 3.2 提交训练
      • 3.3 查看提交结果
      • 3.4 查看训练结果

一、获取账号

使用超算首先需要的当然是需要有超算的使用权限以及超算的账号了。本文主要以北京超级云计算中心为例。

  1. 首先在百度、知乎等平台搜索北京超级云计算中心试用,找到申请的表单,提交申请即可。学校教师或学生使用教育网邮箱概率更大哦。
  2. 申请试用后大约 1~2 天,北超云会依据你留的手机号给你打电话,电话里会沟通一些超算中心试用节点等信息。
  3. 电话沟通后大于 1~2 天内会收到超算账号开通的邮件,届此获取账号环节结束。

二、安装环境

根据邮件中的网址 https://cloud.blsc.cn/ 与账号密码登陆超算平台网页版,或下载客户端登陆。登陆后界面如下图所示。

2.1 安装系统软件

在运行前需要安装一些必要软件。打开桌面应用中心,找到 ssh、WinScp 等选择并安装。
ssh 用于链接超算账号,执行超算命令。
WinScp 用于查看、上传、下载超算节点的文件。
其他软件按需求安装。

2.2 配置 yolov5 深度学习环境

使用 SSH 链接超算节点后,需要在节点内配置运行环境。

超算节点安装好了一些默认环境,使用 module avail 可查看节点可用的软件列表。

使用 module load anaconda/2020.11 加载 anaconda 环境。
使用 conda creat -n torch110 Python=3.8 创建一个名为 torch110 的 python3.8 的虚拟环境。
使用 module load cuda/11.3 加载 cuda/11.3 环境。
使用 source activate torch110 激活 python 虚拟环境。
使用 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 安装 torch 1.10.0 环境,可依据需要自行安装其他 torch 版本环境。

然后使用 WinScp 工具将本地 yolov5 训练文件以及训练数据上传到超算节点的 run 文件夹下。

然后进入 yolov5 文件夹下,执行 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 安装 yolov5 需要的运行环境。

三、训练数据

3.1 创建 sub.sh 文件

在上传的 run/yolov5 文件夹下新建文件 sub.sh
sub.sh 中填入一下内容:

# sub.sh
# #!/bin/sh
# 加载 anaconda
module load anaconda/2020.11
# 加载 cuda 11.3
module load cuda/11.3
# 激活 python 虚拟环境
source activate torch110
export PYTHONUNBUFFERED=1
# yolov5 python 训练的的命令(此处需要自己依据自己训练的需要进行修改)
python train.py --img 640 --batch 16 --epoch 100 --data dataset/data/voc2007.yaml --cfg dataset/yolov5s_1.yaml --weights weights/yolov5s.pt

3.2 提交训练

使用 ssh 工具进入 sub.sh 根目录中,执行 sbatch --gpus=GPU数量 程序运行脚本 ,例如 sbatch --gpus=1 ./sub.sh 提交需要训练的数据到超算的计算节点。

3.3 查看提交结果

  1. 查看已提交作业

    parajobs
    

其中,
第一列 JOBID 是作业号,作业号是唯一的。
第二列 PARTITION 是作业运行使用的队列名。
第三列 NAME 是作业名。
第四列 USER 是超算账号名。
第五列 ST 是作业状态,R(RUNNING)表示正常运行,PD(PENDING)表示在排队,CG(COMPLETING)表示正在退出,S 是管理员暂时挂起,CD(COMPLETED)已完成,F(FAILED)作业已失败。只有 R 状态会计费。
第六列 TIME 是作业运行时间。
第七列 NODES 是作业使用的节点数。
第八列 NODELIST(REASON)对于运行作业(R 状态)显示作业使用的节点列表;对于排队作业(PD 状态),显示排队的原因。

  1. 取消作业
    执行 scancel 作业ID 取消作业

    scancel 20118812
    
  2. 进入计算节点中

使用 ssh 作业节点数ssh g0012 进入当前提交训练的计算节点中,使用 nvidia-smi 可查看当前计算节点的运行情况。

3.4 查看训练结果

  1. 训练的全部日志保留在 run/yolov5 根目录中名为 slurm-XXX.out 文件中。
  2. 训练完成的结果与本地训练一样,存放在 run/yolov5/runs/train 中。


本文首发于本人博客:https://blog.gitnote.cn/post/bscc_yolov5

版权信息: CC BY-NC-SA 4.0 (自由转载-非商用-相同方式共享-保持署名)

北京超级云计算中心操作训练指南相关推荐

  1. 龙讯旷腾并行科技签署战略合作协议,将PWmat加入以北京超级云计算中心算力资源为“基座”的超算云平台

    11月1日,北京龙讯旷腾科技有限公司(以下简称"龙讯旷腾")宣布与北京并行科技股份有限公司(以下简称"并行科技")签署战略合作协议,将PWmat加入以北京超级云 ...

  2. OpenMMLab使用北京超算云计算中心进行图像分类

    1.环境配置 根据 mmclassification 的环境要求,需要⽤ anaconda.cuda.gcc 等基础环境模块.在 N30 分区可以使⽤ module avail 命令可以使⽤模块信息 ...

  3. 北京超级云计算GPU服务器的使用教程

    1,下载软件登录 2 使用winscp 将自己的程序导入最好是压缩包,导入后 从左边拖拽到右边即可 改代码双击右边想改的文件即可 3 加载安装环境 module load anaconda/2020. ...

  4. 3 北京超算云计算平台深度学习环境配置笔记

    点击链接https://cloud.blsc.cn/进入网页版或下载客户端,使用北京超级云计算中心账号登陆 环境信息加载总结 #!/bin/bash #加载模块 module load anacond ...

  5. 福利来了!国内TOP3的超级云计算,免费领2000核时计算资源!

    长久以来,超级计算机一直是各国竞相角逐的科技制高点,也是国家综合科技实力的体现,尤其是近几年,中国和美国在超算领域的竞争已经进入"白热化".2020年,我国超级计算机在<全球 ...

  6. 北京超级计算机中心,超级计算机“元”上线 北京超云中心正式服役

    6月19日,"北京超级云计算中心HPC研讨会暨新一代超级计算机'元'上线开通仪式"在北京超级云计算中心举行.据悉,北京超级云计算中心作为中科院.北京市共建的重大项目,旨在成为服务北 ...

  7. 云计算中心怎么选址?

    由国家科技部批准的只有5家国家超级计算中心:天津.深圳.长沙.济南.广州.其他各地拥有云计算中心的城市还有:成都.无锡.上海.北京.青岛.吕梁等.华云数据拥有全云能力:其中,中国国家超级计算天津中心. ...

  8. 云计算创新展望-精耕细作的超级云计算平台

    前言 在当今云计算深入各行业.计算量暴增现状之下,云计算生态迎来百花齐放.但用户不希望将所有鸡蛋放在一个篮子里面,因此每个企业都在发展自己的私有云.公有云等多云.混合云结构. 因云计算的高灵活性.可扩 ...

  9. 云计算中心的实施技术

    本文讲的是云计算中心的实施技术,[IT168 资讯]云计算也是这种概念,云计算这种电能是可以定制的,比如说在美国和中国的电不一样,其实是可以从云计算提到自己需要的这种电.讲一下我们的战略是怎么样的发展 ...

  10. 有限服务器延时计算_新建三座超级数据中心,增超百万台服务器 阿里云数据中心选址有何逻辑?...

    每经记者:刘春山 每经编辑:梁枭 今日(7月31日),阿里云正式宣布,其位于南通.杭州和乌兰察布的三座超级数据中心正式落成,陆续开服,新增超100万台服务器的计算力.加上之前的张北.河源,阿里云已经建 ...

最新文章

  1. 100天后 - 100-days-later
  2. 自制清理电脑里的垃圾软件
  3. 怎么用计算机计算出选手最后得分,计算选手最后得分(限制分的值,且最后按n或N键结束,其他键继续)...
  4. 自媒体敏感词大全_2020年自媒体软件大全,这里真的有大宝贝……
  5. mysql事务实战_MySQL实战45讲学习-事务相关笔记
  6. python随机抽样numpy_python numpy之np.random的随机数函数使用介绍
  7. python 文件格式转换_python实现txt文件格式转换为arff格式
  8. Linux 系统应用编程——标准I/O
  9. 深入理解 Redis Template及4种序列化方式__spring boot整合redis实现RedisTemplate三分钟快速入门
  10. java多线程知识汇总(三)如何选择锁?如何加锁
  11. 对servelet路径的总结
  12. vim的几个常用操作
  13. CATIA怎么约束快捷键_Catia快捷键怎么设置?CATIA小技巧-设置快捷键方法
  14. 9点EXCEL计算公式
  15. EXCEL表格所有的快捷键
  16. 在VC中用CMenuXP使应用程序拥有Office XP风格的界面
  17. EMERGENCY! EUREKA MAY BE INCORRECTLY CLAIMING INSTANCES ARE UP WHEN THEY'RE NOT. RENEWALS ARE LESSER
  18. webstorm 使用技巧
  19. Event-emitter (理解篇)
  20. 问题解决:Invalid version number:Version number may be negative or greater than 255

热门文章

  1. Vue项目-手机app瑞幸咖啡详解(全网最细) 从脚手架搭建到前后端数据交互(二)
  2. Competition2:HRZ学英语
  3. 解决webView无法播放视频的问题
  4. 2016年上半年光伏企业沉浮录
  5. 不知道如何压缩PDF?教你3个压缩PDF文件方法
  6. app三种工具的元素定位与swipe 滑动
  7. 电网企业 财务管理创新
  8. [打新技巧]打新股产品跷跷板定律
  9. 聚簇索引与非聚簇索引
  10. 【硬件】在Windows PC端使用adb工具无线向电视机顶盒安装第三方软件(不需要ROOT,已解决)