pytorch报错“RuntimeError: DataLoader worker (pid 83709) is killed by signal: Bus error. It is .......“
在docker容器里运行pytorch写的代码,报错:“RuntimeError: DataLoader worker (pid 83709) is killed by signal: Bus error. It is possible that dataloader’s workers are out of shared memory. Please try to raise your shared memory limit.”,具体如下图:
一,报错原因:
docker的共享内存shm不够
1, 在运行的代码前面加上下面代码(建议使用这种方法,操作比较简单):
import sys
import torch
from torch.utils.data import dataloader
from torch.multiprocessing import reductions
from multiprocessing.reduction import ForkingPicklerdefault_collate_func = dataloader.default_collatedef default_collate_override(batch):dataloader._use_shared_memory = Falsereturn default_collate_func(batch)setattr(dataloader, 'default_collate', default_collate_override)for t in torch._storage_classes:if sys.version_info[0] == 2:if t in ForkingPickler.dispatch:del ForkingPickler.dispatch[t]else:if t in ForkingPickler._extra_reducers:del ForkingPickler._extra_reducers[t]
2,在运行docker容器的启动命令中加入以下参数:
--shm-size="64g"
具体改为多少依据宿主机的运行内存来定
3,修改对应docker容器的配置文件
首先停止docker服务:
$ systemctl stop docker
修改容器的配置文件:
$ su root
$ cd /var/lib/docker/containers/容器ID
$ ls
$ vim hostconfig.json
修改里面Shmsize的大小:
重启docker服务:
$ systemctl restart docker
Done!!!
pytorch报错“RuntimeError: DataLoader worker (pid 83709) is killed by signal: Bus error. It is .......“相关推荐
- Pytorch:RuntimeError: DataLoader worker (pid 27) is killed by signal: Killed. Details are lost due
问题描述: 在Docker中运行Pytorch,并且DataLoader采用了多进程(num_workers>0),当内存不足时报错如下: RuntimeError: DataLoader wo ...
- DataLoader worker (pid 2287) is killed by signal: Killed. pytorch训练解决方法
DataLoader worker (pid 2287) is killed by signal: Killed. pytorch训练解决方法 参考文章: (1)DataLoader worker ( ...
- Pytorch中Dataloader踩坑:RuntimeError: DataLoader worker (pid(s) 6700, 10620) exited unexpectedly
Pytorch中Dataloader踩坑 环境: 问题背景: 观察报错信息进行分析 根据分析进行修改尝试 总结 环境: 系统:windows10 Pytorch版本:1.5.1+cu101 问题背景: ...
- PyTorch报错“RuntimeError: one of the variables needed for gradient computation has been modified by……”
1 问题描述 今天在写作DeepLabV3+的代码时,遇到了一个问题, 程序报错: RuntimeError: one of the variables needed for gradient com ...
- 【0162】解决报错:startup process (PID 229811) was terminated by signal 6: Aborted
文章目录 1. 问题描述 2. 分析思路 3. 解决方案 1. 问题描述 为了继续讲解 PostgreSQL的VFD实现机制 时,我们需要继续调用[0161]VFD如何打开一个文件?一文中所提到的pg ...
- 《动手学深度学习》报错 解决方案RuntimeError: DataLoader worker (pid(s) ...) exited unexpectedly
最近在学习<动手学深度学习>这本书,其中3.6节训练时出现如下错误: 这个就是多进程出了问题,需要找到get_dataloader_workers()函数,更改其返回值,解决方案如下: 1 ...
- pytorch报错RuntimeError: Inferred elem type differs from existing elem type: (DOUBLE) vs (FLOAT)
pytorch转onnx时报错: RuntimeError: Inferred elem type differs from existing elem type: (DOUBLE) vs (FLOA ...
- RuntimeError: DataLoader worker (pid(s) 13512, 280, 21040) exited unexpectedly
pytorch出现这个错误,是因为正在运行的主程序缺少 if __name__ == '__main__': 在运行的主程序代码之前加上这一句
- pytorch报错RuntimeError: error in LoadLibraryA
这是因为腾讯管家把某个文件当成病毒删除了,恢复该文件即可 恢复腾讯管家杀毒误删文件方法: https://jingyan.baidu.com/article/6766299763dab854d41b8 ...
最新文章
- Vector ArrayList Hashtable HashMap ArrayList LinkedList
- cmake 头文件 库文件 路径搜索 CMAKE_INCLUDE_PATH CMAKE_LIBRARY_PATH
- ocjp 31-40
- Docker Review - docker images 常用命令
- 致敬2016,拥抱2017
- 熊猫分发_熊猫新手:第二部分
- ROS调用ORB-SLAM2
- 面试题系列-redis连环11问
- Python模块-decimal
- shell逻辑判断、文件属性判断、if特殊用法、case判断
- 全网首发:终于把freetype的bitmap模式汉字字体旋转成功了
- 机器学习导论——关于数据集的概念
- 微信开放平台创建应用时应用官网的问题
- Mgo统计查询及显示附加字段
- 主流射频半导体材料及特性介绍
- 第三届大湾区杯B题思路及代码-基于宏观经济周期的大类资产配置策略构建
- 用Markdown优雅地一键排版公众号 解决公众号排版代码块换行错误的问题
- Altium Designer 18中的PCB Editor–Board Insight Display
- 我们的空间是它圆——基于Poicare对宇宙的模型
- Linux中cp命令介绍
热门文章
- VMWare中CentOS7增加系统盘空间
- 将当前容器保存为本地镜像
- Android平台App进程优先级
- NX二次开发-UFUN获取工程图详细信息UF_DRAW_ask_drawing_info
- android获取网络图片方法,Android获取网络图片并显示的方法
- 乌镇发布六大榜单,解读大数据产业全景 !(附2018中国大数据产业地图、企业榜单)...
- mysql从数据库误删.idb / .frm 文件,恢复数据方法
- html盒子里的内容溢出,[经验] HTML页面中子盒子溢出了怎么办
- 秋招实习季,教你制作在线简历
- 四通畜牧数据库使用说明