MindSpore  版本:1.5.0-rc1

ubuntu18.04

python3.7.5

GPU CUDA10.1

【操作步骤&问题现象】

1、修改batchsize为32和数据及路径后直接运行报错Attr output_num 32must less than28  ,修改group为16后报错Attr output_num 16must less than14,修改group为7才能够正常运行

2、上传至modelarts上与自己电脑上运行错误相同,同样group更改为7才能使用                      配置为GPU: 1*NVIDIA-V100(32GB) | CPU: 8 核 64GB

[ERROR] KERNEL(3516,7f24a92a2740,python):2021-10-23-20:03:05.062.308 [mindspore/ccsrc/backend/kernel_compiler/gpu/arrays/split_gpu_kernel.h:144] CheckParam] Attr output_num 32must less than28
[EXCEPTION] DEVICE(3516,7f24a92a2740,python):2021-10-23-20:03:05.062.651 [mindspore/ccsrc/runtime/device/gpu/gpu_kernel_build.cc:63] CreateGPUKernel] Initialize gpu kernel op[Default/network-TrainOneStepCell/network-WithLossCell/_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split-op137405] failed.
Traceback (most recent call last):
  File "/home/zxm/PycharmProjects/pythonProject3/train.py", line 288, in
    model.train(cfg.epoch_size, dataset, callbacks=cbs)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 718, in train
    sink_size=sink_size)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 502, in _train
    self._train_dataset_sink_process(epoch, train_dataset, list_callback, cb_params, sink_size)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 564, in _train_dataset_sink_process
    outputs = self._train_network(*inputs)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 404, in __call__
    out = self.compile_and_run(*inputs)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 682, in compile_and_run
    self.compile(*inputs)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 669, in compile
    _cell_graph_executor.compile(self, *inputs, phase=self.phase, auto_parallel_mode=self._auto_parallel_mode)
  File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/common/api.py", line 542, in compile
    result = self._graph_executor.compile(obj, args_list, phase, use_vm, self.queue_name)
RuntimeError: mindspore/ccsrc/runtime/device/gpu/gpu_kernel_build.cc:63 CreateGPUKernel] Initialize gpu kernel op[Default/network-TrainOneStepCell/network-WithLossCell/_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split-op137405] failed.

【截图信息】

解答:

关键报错信息如下:

_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split

split_gpu_kernel.h:144] CheckParam] Attr output_num 32 must less than28

报错的意思是说:你网络中使用了Split算子,该算子的input_x.shape()[axis] 是 28,但是你设置的output_num 是 32,超出了输入数据在axis维度上的最大切分粒度,所以报错。

建议:调试网络结构,或修改网络配置参数。

Split算子接口说明如下。

https://www.mindspore.cn/docs/api/en/master/api_python/ops/mindspore.ops.Split.html#mindspore.ops.Split

Mindspore模型训练Modelzoo SEResNext50_32*4d GPU初始化错误相关推荐

  1. 模型训练太慢?显存不够?这个方法让你的GPU联手CPU

    随着深度学习模型复杂度和数据集规模的增大,计算效率成为了不可忽视的问题.GPU凭借强大的并行计算能力,成为深度学习加速的标配.然而,由于服务器的显存非常有限,随着训练样本越来越大,显存连一个样本都容不 ...

  2. DeepSpeed超大规模模型训练工具

    DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed.这是一个开源深度学习训练优化库,包含的一个新的显存优化技术-- ZeRO(零冗余优化器),通过扩大规模,提升速度 ...

  3. 一文了解 AI 商品模型训练平台

    AI平台的初衷永远是提高开发效率,加快算法迭代周期.通过产品化AI技术,让运营人员能够更贴近技术,更好地指导赋能业务场景,给客户带来更好的技术体验和产品体验. 本文是2020年的正式第一文,介绍了人工 ...

  4. 华为开源自研AI框架昇思MindSpore模型体验:ModelZoo中的CRNN

    目录 一.环境准备 1.进入ModelArts官网 2.使用CodeLab体验Notebook实例 二.脚本说明 三.数据集 四.训练过程 五.评估过程 六.推理过程 CRNN描述 CRNN是一种基于 ...

  5. gpu处理信号_在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

    先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数,今年的GPT-3有1750亿个参数.虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用 ...

  6. 模型训练太慢?显存不够用?这个算法让你的GPU老树开新花

    一只小狐狸带你解锁NLP/ML/DL秘籍 作者:小鹿鹿鹿,夕小瑶 老板,咱们就一台Titan Xp,训不动BERT呀 没钱买机器,自己想办法. 委屈T^T 我听说混合精度训练可以从算法上缓解这个问题? ...

  7. 利用多 GPU 加速深度学习模型训练

    01 - 前言 深度学习模型通常使用 GPU 训练,因为 GPU 具有相比 CPU 更高的计算能力,以 Tesla V100 为例,使用 Tensor Core 加速的半精度浮点计算能力达到 125 ...

  8. 单机训练速度提升高达640倍,快手开发GPU广告模型训练平台

    作者|廉相如(快手FeDA智能决策实验室 ) 如何有效处理大规模用户数据进行广告推荐?对于互联网企业的发展和进步至关重要.这也是为何快手成立西雅图实验室并实现新一代GPU广告模型训练平台的原因之一.快 ...

  9. 训练一个130亿参数的模型要用几个GPU?微软:一个就够

    视学算法报道 转载自公众号:机器之心 作者:蛋酱.张倩 现在的模型动辄数百.数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer,将 ...

最新文章

  1. CentOS-7.0的核心安装与配置的补全
  2. git错误提交怎么整?强行回滚最为致命
  3. java通过使用ffmpeg获取视频的码率
  4. what are the added values for the research?
  5. Codeforces 777E:Hanoi Factory(贪心+栈)
  6. 网游云上网络优化方案
  7. 【渝粤教育】国家开放大学2018年秋季 1313T学前儿童卫生与保健 参考试题
  8. 对github的初步认识以及对软件技术基础课程的期待
  9. C# 窗体半透明,控件不透明
  10. php curl 及其参数
  11. python机器学习实战_Python机器学习实战案例
  12. 大连理工大学电路计算机,大连理工大学电路计算机辅助分析实验报告.pdf
  13. CAN 接收邮箱 掩码设置
  14. C语言课程设计之火车订票系统实现
  15. 【吴恩达】机器学习第16章异常检测以及ex8部分编程练习
  16. NodeJs C++ addon(插件nan方式)
  17. Python恢复初始的pip list(清空所有包)
  18. 成为一名大数据工程师,需要具备什么技能?
  19. 机器学习:数据预处理之独热编码(One-Hot)详解
  20. 微信小程序生成条形码

热门文章

  1. 换地方了,请访问http://www.cxyhy.com
  2. 期刊论文是否需要查重?
  3. Canvas DrawText详解
  4. 我也读ADD的人生整理术
  5. 取英文名字的三种方法
  6. 2013最受女性创业项目排行榜
  7. 英语口语笔记B1-Unit01.购物时尚-03-Shopping overseas
  8. 【Linux】vi编辑器如何使用
  9. C++ builder 操作Excel方法(据网上资料整理)
  10. this和spuer的区别