Mindspore模型训练Modelzoo SEResNext50

MindSpore 版本：1.5.0-rc1

ubuntu18.04

python3.7.5

GPU CUDA10.1

【操作步骤&问题现象】

1、修改batchsize为32和数据及路径后直接运行报错Attr output_num 32must less than28 ，修改group为16后报错Attr output_num 16must less than14，修改group为7才能够正常运行

2、上传至modelarts上与自己电脑上运行错误相同，同样group更改为7才能使用配置为GPU: 1*NVIDIA-V100(32GB) | CPU: 8 核 64GB

[ERROR] KERNEL(3516,7f24a92a2740,python):2021-10-23-20:03:05.062.308 [mindspore/ccsrc/backend/kernel_compiler/gpu/arrays/split_gpu_kernel.h:144] CheckParam] Attr output_num 32must less than28
[EXCEPTION] DEVICE(3516,7f24a92a2740,python):2021-10-23-20:03:05.062.651 [mindspore/ccsrc/runtime/device/gpu/gpu_kernel_build.cc:63] CreateGPUKernel] Initialize gpu kernel op[Default/network-TrainOneStepCell/network-WithLossCell/_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split-op137405] failed.
Traceback (most recent call last):
File "/home/zxm/PycharmProjects/pythonProject3/train.py", line 288, in
model.train(cfg.epoch_size, dataset, callbacks=cbs)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 718, in train
sink_size=sink_size)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 502, in _train
self._train_dataset_sink_process(epoch, train_dataset, list_callback, cb_params, sink_size)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/train/model.py", line 564, in _train_dataset_sink_process
outputs = self._train_network(*inputs)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 404, in __call__
out = self.compile_and_run(*inputs)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 682, in compile_and_run
self.compile(*inputs)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/nn/cell.py", line 669, in compile
_cell_graph_executor.compile(self, *inputs, phase=self.phase, auto_parallel_mode=self._auto_parallel_mode)
File "/home/zxm/.local/lib/python3.7/site-packages/mindspore/common/api.py", line 542, in compile
result = self._graph_executor.compile(obj, args_list, phase, use_vm, self.queue_name)
RuntimeError: mindspore/ccsrc/runtime/device/gpu/gpu_kernel_build.cc:63 CreateGPUKernel] Initialize gpu kernel op[Default/network-TrainOneStepCell/network-WithLossCell/_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split-op137405] failed.

【截图信息】

解答：

关键报错信息如下：

_backbone-SENet/layer2-SequentialCell/1-SEResNeXtBottleneck/conv2-GroupConv/Split

split_gpu_kernel.h:144] CheckParam] Attr output_num 32 must less than28

报错的意思是说：你网络中使用了Split算子，该算子的input_x.shape()[axis] 是 28，但是你设置的output_num 是 32，超出了输入数据在axis维度上的最大切分粒度，所以报错。

建议：调试网络结构，或修改网络配置参数。

Split算子接口说明如下。

https://www.mindspore.cn/docs/api/en/master/api_python/ops/mindspore.ops.Split.html#mindspore.ops.Split

Mindspore模型训练Modelzoo SEResNext50_32*4d GPU初始化错误相关推荐

模型训练太慢？显存不够？这个方法让你的GPU联手CPU
随着深度学习模型复杂度和数据集规模的增大,计算效率成为了不可忽视的问题.GPU凭借强大的并行计算能力,成为深度学习加速的标配.然而,由于服务器的显存非常有限,随着训练样本越来越大,显存连一个样本都容不 ...
DeepSpeed超大规模模型训练工具
DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed.这是一个开源深度学习训练优化库,包含的一个新的显存优化技术-- ZeRO(零冗余优化器),通过扩大规模,提升速度 ...
一文了解 AI 商品模型训练平台
AI平台的初衷永远是提高开发效率,加快算法迭代周期.通过产品化AI技术,让运营人员能够更贴近技术,更好地指导赋能业务场景,给客户带来更好的技术体验和产品体验. 本文是2020年的正式第一文,介绍了人工 ...
华为开源自研AI框架昇思MindSpore模型体验：ModelZoo中的CRNN
目录一.环境准备 1.进入ModelArts官网 2.使用CodeLab体验Notebook实例二.脚本说明三.数据集四.训练过程五.评估过程六.推理过程 CRNN描述 CRNN是一种基于 ...
gpu处理信号_在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数,今年的GPT-3有1750亿个参数.虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用 ...
模型训练太慢？显存不够用？这个算法让你的GPU老树开新花
一只小狐狸带你解锁NLP/ML/DL秘籍作者:小鹿鹿鹿,夕小瑶老板,咱们就一台Titan Xp,训不动BERT呀没钱买机器,自己想办法. 委屈T^T 我听说混合精度训练可以从算法上缓解这个问题? ...
利用多 GPU 加速深度学习模型训练
01 - 前言深度学习模型通常使用 GPU 训练,因为 GPU 具有相比 CPU 更高的计算能力,以 Tesla V100 为例,使用 Tensor Core 加速的半精度浮点计算能力达到 125 ...
单机训练速度提升高达640倍，快手开发GPU广告模型训练平台
作者|廉相如(快手FeDA智能决策实验室 ) 如何有效处理大规模用户数据进行广告推荐?对于互联网企业的发展和进步至关重要.这也是为何快手成立西雅图实验室并实现新一代GPU广告模型训练平台的原因之一.快 ...
训练一个130亿参数的模型要用几个GPU？微软：一个就够
视学算法报道转载自公众号:机器之心作者:蛋酱.张倩现在的模型动辄数百.数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer,将 ...

Mindspore模型训练Modelzoo SEResNext50_32*4d GPU初始化错误

Mindspore模型训练Modelzoo SEResNext50_32*4d GPU初始化错误相关推荐

最新文章

热门文章