报错1

RuntimeError: CUDA out of memory. Tried to allocate 260.00 MiB (GPU 0; 31.72 GiB total capacity; 30.05 GiB already allocated; 187.88 MiB free; 30.31 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

原因:GPU已经使用太多,没办法分配更多空间。可能是模型太大或者load了太多数据到GPU。
解决:减小batch_size大小,使得每次载入GPU的数量小一些。

报错2

“shell1.sh: line 219: 16952 Killed CUDA_VISIBLE_DEVICES=${gpu_list} python main.py”

原因:如果该进程不是被手动kill掉的,那应该就是内存资源不够导致系统kill掉了进程。
解决:减小数据集大小,或者切分特征后按需读取用完释放,或者干脆对不需要存储的数据即时计算。

Linux服务器跑机器学习代码报错记录相关推荐

  1. linux服务器运行matlab文件报错

    linux服务器运行matlab文件报错 在linux服务器上安装matlab之后,如果想要运行matlab程序,通常的做法是先cd到matlab文件所在的文件夹,然后输入指令 % 假定matlab文 ...

  2. linux服务器上import joblib报错 ImportError: No module named joblib

    目录 1.报错场景 2.解决办法 1.报错场景 我在windows上训练了一个机器学习模型,用joblib保存后上传到服务器上.在服务器上运行python脚本报错:ImportError: No mo ...

  3. linux服务器断电后系统报错,Linux服务器开机启动报错.docx

    Linux服务器开机启动报错 问题描述:重启机房服务器 119 开机的时候卡在这里吗,重启后还是卡这里.问题分析:由于前一段时间,tomcat服务的一个错误代码导致CPU一直接近100% 运行,并且在 ...

  4. Linux服务器下PHPMailer发送邮件报错504

    代码的demo是copy此处的:http://www.php.cn/php-weizijiaocheng-405993.html. 经过调整修改在本地跑通了,但放到线上服务器一直报504的错误.最后发 ...

  5. Linux服务器重启失败,报错Readonly File system

    问题背景:linux 磁盘根分区太小,在对根目录进行扩容以后,从home目录抽取一块磁盘挂载到 /root 目录下,完成以后并没有修改 /etc/fstab 文件,导致系统开机以后继续寻找执行原来的 ...

  6. linux下运行eureka,Linux服务器重启后eureka报错

    webdriver学习笔记 该篇文章记录本人在学习及使用webdriver做自动化测试时遇到的各种问题及解决方式,问题比较杂乱.问题的解决方式来源五花八门,如有疑问请随时指正一遍改正. 1.WebDr ...

  7. pycharm使用ssh连接服务器(ubuntu)跑代码报错:“sudo+ssh: ……bash: line 0: cd: xxx/code: No such file or directory”

    pycharm使用ssh连接服务器(ubuntu)跑代码报错:"sudo+ssh: --bash: line 0: cd: xxx/code: No such file or directo ...

  8. linux下编译make文件报错“/bin/bash^M: 坏的解释器,使用grep快速定位代码位置

    一.linux下编译make文件报错"/bin/bash^M: 坏的解释器 参考文章:http://blog.csdn.net/liuqiyao_01/article/details/415 ...

  9. python modulenotfounderror_python 服务器运行代码报错ModuleNotFoundError的解决办法

    一.问题描述 一段 Python 代码在本地的 IDE 上运行正常,部署到服务器运行后,出现了 ModuleNotFoundError: No module named 'xxx" 错误. ...

  10. 【错误记录】Android Studio 向 GitHub 提交代码报错 ( Push failed: Failed with error: Could not read | 使用命令行提交代码 )

    文章目录 一.报错信息 二.解决方案 一.报错信息 在 Android Studio 中首次向 GitHub 提交代码 , 报错 : Push failed: Failed with error: C ...

最新文章

  1. python外包_python怎么找外包
  2. Android NullPointerException解决方法(空指针异常)
  3. swiper轮播器的常用案例分析(swiper hover停止mouseover停止)
  4. Storm 05_Storm并发机制通信机制
  5. 防止抓取html代码,网页中用html代码注释的内容会被抓取吗
  6. SAP C4C里没有选择Port binding的url Mashup行为分析
  7. 手把手教出欧拉!数学界最伟大的老师惨遭全网歪曲抹黑,奇葩说陈铭一句话揭露真相.........
  8. 理论物理-从规范对称的意义说下去
  9. 阿里巴巴为什么要禁用Executors创建线程池?
  10. 简单制作vbs 对话框表白
  11. “开房信息泄露案”开审,“B/S架构”酒店管理系统终成酒店大患
  12. IDEA断点变成了白色
  13. Kubeedge实现原理
  14. 安装Linux虚拟机
  15. 服务器芯片市场容量,未来内存接口芯片市场规模 使用内存接口芯片的服务器内存模组主要有寄存内存模组(RDIMM)和减载内存模组(LRDIMM)两种。RDIMM需要一颗寄... - 雪球...
  16. 『英语杂谈』 [好文共赏]Heal the World(转载)
  17. 【2019年04月04日】股市指数估值排名
  18. latex+bibtex+jabref
  19. Haproxy启动故障:Starting proxy:cannot bind socke
  20. 3-4 harbor 2.6.2 的安装使用及高可用方案

热门文章

  1. IndexError: Target 25 is out of bounds.
  2. 挨踢项目求生法则(2)——战略篇
  3. win10计算机恢复到一天前,win10怎么系统还原到某一时刻 win10系统还原之后会怎么样...
  4. python中chr()和ord()函数的用法
  5. matlab求伪逆,逆、伪逆、左右逆、最小二乘、投影矩阵
  6. 嵌入式Linux--MYS-6ULX-IOT--构建交叉编译环境
  7. android 2.2 sdk 下载地址,Android SDK 2.2 离线安装
  8. c语言双向循环链表存储长整型,湖南工程学院15级C语言课程设计报告.doc
  9. Nvidia PhysX 学习文档1: Welcome to PhysX
  10. 我不理解表现与数据分离。。。