预先知识

${CONFIG_FILE}:config/里面的文件

config/faster_rcnn_r50_fpn_1x_coco.py

${CHECKPOINT_FILE}:模型权重所在位置

checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth

[–out ${RESULT_FILE}]:测试生成的文件输出位置

[–eval ${EVAL_METRICS}]:选用的测试方法

${GPU_NUM}:GPU数量

测试数据集

# single-gpu
python tools/test.py ${CONFIG_FILE} ${CHECKPOINT_FILE} [--out ${RESULT_FILE}] [--eval ${EVAL_METRICS}] [--show]# multi-gpu testing
./tools/dist_test.sh ${CONFIG_FILE} ${CHECKPOINT_FILE} ${GPU_NUM} [--out ${RESULT_FILE}] [--eval ${EVAL_METRICS}]

模型训练

单机单GPU训练

python tools/train.py ${CONFIG_FILE}

举例:

python tools/train.py ./configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py

如需指定工作目录,后接参数:--work_dir${WORK_DIR}

单机多GPU训练

./tools/dist_train.sh ${CONFIG_FILE} ${GPU_NUM} [optional arguments]

举例:

./tools/dist_train.sh ./configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py 4

可选参数:
--validate:训练过程中,每隔k代执行一次评估(默认为1)
--work_dir ${WOR_DIR}:指定工作目录
--resume_from ${CHECKPOINT_FILE}:从先前的检查点文件恢复

多机多GPU训练

使用slurm集群管理:

./tools/slurm_train.sh ${PARTITION} ${JOB_NAME} ${CONFIG_FILE} ${WORK_DIR} [${GPUS}]

举例:16GPU,test分区,训练faster R-CNN

./tools/slurm_train.sh test Faster_r50_1x configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py /home/xxx/faster_rcnn_r50_fpn_1x 16

Reference

MMDetection中文文档——2.入门

MMDetection——GPU训练相关推荐

  1. 在服务器上利用mmdetection来训练自己的voc数据集

    在服务器上利用mmdetection来训练自己的voc数据集 服务器上配置mmdetection环境 在服务器上用anaconda配置自己的环境 进入自己的虚拟环境,开始配置mmdetection 跑 ...

  2. 【MMDetection】——训练个人数据集

    文章目录 1.数据集格式及存放 2.修改两处 3.用训练命令生成配置文件 4.正式训练开始 5.报错记录 6.模型评价测试(VOC指标mAP.COCO指标AP) 7.绘制每个类别bbox 的结果曲线图 ...

  3. pytorch 多GPU训练总结(DataParallel的使用)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_40087578/arti ...

  4. Pytorch中多GPU训练指北

    前言 在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情.Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用P ...

  5. MinkowskiEngine多GPU训练

    MinkowskiEngine多GPU训练 目前,MinkowskiEngine通过数据并行化支持Multi-GPU训练.在数据并行化中,有一组微型批处理,这些微型批处理将被送到到网络的一组副本中. ...

  6. ​从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自:机器之心  作者:Erik Lybecker  |  参 ...

  7. 多gpu训练梯度如何计算,求和是否要求平均

    作者:智星云服务 链接:https://www.zhihu.com/question/271226455/answer/1521784627 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权, ...

  8. 47分钟,BERT训练又破全新纪录!英伟达512个GPU训练83亿参数GPT-2 8B

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 具有92个DGX-2H节点的NVIDIA DGX SuperPOD通过在短短47分 ...

  9. torch distributed 多GPU训练笔记

    DistributedDataParallel (既可单机多卡又可多机多卡) 先奉上官网nn.DistributedDataParallel(model)链接 https://pytorch.org/ ...

最新文章

  1. 「工科神器」MATLAB风波未平,「化学神器」ChemOffice再爆清查国内盗版行为
  2. VR Cinema 来了!未来的影院也许是酱紫滴
  3. 《机器人编程实战》一一第1章 究竟什么是机器人
  4. 使用Spring AOP,自定义注释和反射为您的应用审核基础架构
  5. mysql不复制数据_windows mysql不停止服务复制数据
  6. 计算机网络中的数据链路层
  7. Android中文API(128) —— HandlerThread
  8. 安徽新华学院计算机设计大赛,安徽新华学院学子在中国大学生计算机设计大赛中获佳绩...
  9. 编译原理基础---思维导图
  10. python 黑客工具开发_python黑客软件的搜索结果-阿里云开发者社区
  11. 《从零开始学Swift》学习笔记(Day 39)——构造函数重载
  12. 深度学习模型训练的一般方法(以DSSM为例)
  13. php序列化后换服务器不能解析,利用php序列化和反序列化的语法差异绕过防护_网站服务器运行维护...
  14. echarts导出为pdf
  15. 15 年工龄的阿里P9职场历程自述
  16. 基于SSH框架的电影订票系统网站的设计与实现
  17. Gartner发布《2023年十大战略技术趋势》
  18. 获取安卓手机唯一设备号
  19. norton disk doctor
  20. 笔记本无线网卡失效(红叉)故障排除

热门文章

  1. 计算机文档考试题目及答案,计算机word考试题及答案解析
  2. B站评论区抽奖[python]
  3. Unity利用代码生成空心立方体(立方体挖走一个圆柱)
  4. javaweb仓库管理系统的实现,基于ssm+mysql实现的WMS进销存出库入库系统
  5. 贝叶斯推断应用:垃圾邮件过滤
  6. 揭秘可变剪切研究的本质
  7. 华为面试题(小朋友高矮排序,要求移动距离最小)-java版
  8. 3DMAX做游戏建模,你真的学对了吗?
  9. Win10睡眠后自动唤醒启动的问题
  10. 从学校到工作的一些收获