dataparallel not working on nvidia gpus and amd cpus

https://github.com/pytorch/pytorch/issues/13045
 
问题:
多卡运行时, 网络会卡在那里不能运行.
系统是 AMD Ryzen5 1600x 和 两张taitanXP
之前两张卡是2070+taitanXP是可以多卡运行的, 只不过是显存不一样大...
看了下日志, 都是下面的错误
these error messages were found in the dmesg log:[1118468.873266] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000ea13a000 flags=0x0020]
[1118468.942145] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000ea139068 flags=0x0020]
[1118468.942189] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0000040 flags=0x0020]
[1118468.942227] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d00007c0 flags=0x0020]
[1118468.942265] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0001040 flags=0x0020]
[1118468.942303] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0000f40 flags=0x0020]
[1118468.942340] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d00016c0 flags=0x0020]
[1118468.942377] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0002040 flags=0x0020]

搜了一下, 似乎是一个bug . . .
临时解决办法:
修改 /etc/default/grub
GRUB_DEFAULT=0
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=10
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX="iommu=soft" # 注意修改这一行 ...

然后
sudo update grub
最后重启
这样就可以正常运行了

转载于:https://www.cnblogs.com/JiangOil/p/10513906.html

AMD cpu 下 Pytorch 多卡并行卡死问题解决相关推荐

  1. pytorch多卡并行模型的保存与载入

    pytorch多卡并行模型的保存与载入 当模型是在数据并行方式在多卡上进行训练的训练和保存,那么载入的时候也是一样需要是多卡.并且,load_state_dict()函数的调用要放在DataParal ...

  2. 有bug!PyTorch在AMD CPU的计算机上卡死了

    视学算法报道 转载自:机器之心 编辑:小舟.陈萍 AMD,No?PyTorch在AMD CPU的机器上出现死锁了. PyTorch 作为机器学习中广泛使用的开源框架,具有速度快.效率高等特点.而近年来 ...

  3. aMDcpu不支持mysql_Oracle 11.2.0.1在AMD CPU 64位硬件,32位操作系统下的BUG 8670579

    通过查询meatlink原因是在ORACLE11.2.0.1 AMD 64位CPU下安装了32位的操作系统,触发了bug 8670579,那要解决该问题只需打上86705 bug 8670579 硬件 ...

  4. oracle sha2,Oracle11.2.0.1在AMD CPU 64位硬件,32位操作系统下的BUG 8670579

    bug 8670579 硬件信息: CPU:AMD X6 在执行dbca的时候也报错如下: [oracle@yorkshi ~]$ dbca # # An unexpected error has b ...

  5. 【问题】VS2019在windows10下编译cef报错,导致系统;疑是AMD CPU 超频设置导致

    [问题]VS2019在windows10下编译cef报错,导致系统崩溃:疑是AMD CPU 超频设置导致 编译环境 问题描述 解决? 编译环境 CPU:AMD R5 3600 主板:微星B450 操作 ...

  6. pytorch多gpu并行训练操作指南

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:知乎 作者:link-web 链接:https://zhuanlan.zhi ...

  7. pytorch 指定卡1_[原创][深度][PyTorch] DDP系列第一篇:入门教程

    引言 DistributedDataParallel(DDP)是一个支持多机多卡.分布式训练的深度学习工程方法.PyTorch现已原生支持DDP,可以直接通过torch.distributed使用,超 ...

  8. PyTorch多GPU并行训练方法及问题整理

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:作者丨link-web@知乎 来源丨https://zhua ...

  9. pytorch多gpu并行训练

    pytorch多gpu并行训练 link-web 转自:pytorch多gpu并行训练 - 知乎 目录(目录不可点击) 说明 1.和DataParallel的区别 2.如何启动程序的时候 2.1 单机 ...

最新文章

  1. RabbitMQ 简介以及使用场景
  2. 第九次作业——测试报告与用户手册
  3. Eclipse导入项目: No projects are found to import
  4. struts2文件下载及 param name=inputNameinputStream/param的理解
  5. 5u fb库 三菱plc_三菱FX5U PLC入门必备基础知识特点
  6. 2009-12-12
  7. Amazon Aurora 论文解读
  8. dell设置从ssd启动_为什么懂电脑的人都说SSD不要分区?原来真相是这样!
  9. 工业大数据全景解读和应用案例
  10. 教你如何快速入门python_如何快速入门python
  11. html5 video 直播流无声音,【报Bug】html5plus 使用 VideoPlayer 播放部分rtmp没有声音
  12. 先学Oracle还是Java,事前学习过的java和Oracle笔记没删除的都带过来
  13. python爬虫怎么挣钱_买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划...
  14. 解决firefox和IE9对icon font字体的跨域访问问题
  15. canvas压缩图片成base64,传到后台解码需要注意的问题
  16. DirectX 9 游戏汉化详解
  17. 安装R软件(R、studio)的安装包下载官网和教程
  18. 编译原理 实验一 词法分析器
  19. 电脑上不了网,网络协商速率只有10M?
  20. Luvwgyx的娱乐场-题解

热门文章

  1. solaris系统关闭服务器,solaris系统中关闭和开启系统服务ftp,telnet,ssh,sendmail...
  2. RT-Thread Pin设备驱动API应用介绍
  3. 如何在android的XML和java代码中引用字符串常量
  4. 用c语言写程序求序数的后缀,用C编写mex程序
  5. java 实现自旋锁_java自旋锁的代码实现
  6. java环境变量设置xp_java环境变量设置方法
  7. callablestatement.setstring会不会将字符串trim_Java String:重要到别人只能当老二的字符串类
  8. 数据库外键约束的几种方法及区别
  9. idea下的application.properties下写汉字乱码问题
  10. javaweb mooc在线系统案例实战-张晨光-专题视频课程