我运行Linux集群内中的R读码 - 该代码是复杂的(超过两千行代码),涉及超过40个R包和几百个变量。但是,它在Windows和R.

的Linux版本,我现在正在运行爱丁堡大学EDCF高性能计算集群上运行的代码都和代码并行运行。并行代码在DEoptim中调用,基本上,在初始化后,并行运行一系列函数,并将结果发送回DEoptim算法,并将其作为绘图和数据表保存在我自己的空间 - 重要的是代码运行和工作!

的代码模型区域的水文,我可以设置密码了我想要的任何时间内,模拟历史条件 - 从一天到30年。平行一个月,结果大约每隔70秒吐出一次,而DEoptim算法只是不断重新运行代码,改变输入参数,试图找到最佳参数集。

该代码似乎运行良好的一些运行,但最终崩溃。昨晚的代码完成了一个100组的运行没有问题了大约2个小时,但最终坠毁 - 它总是最终崩溃 - 错误代码:

Error in unserialize(node$con) : error reading from connection

我登录到该系统是一个16核服务器( 16个真正的核心)根据:

detectCores()

我要求8GB的2GB内存插槽。我试图在24内核的机器上运行这个内存大的内存请求(4个40GB的内存插槽),但它最终还是会崩溃。这段代码在Windows计算机上运行良好,并且在8台逻辑内核上并行运行数千个结果。

所以我相信代码是好的,但为什么它崩溃?它可能是一个记忆问题?每次调用它时,它都包含:

rm(list=ls())

gc()

或者它只是一个核心崩溃?我确实认为,如果两个内核试图同时写入同一个数据文件,可能会出现问题,但我暂时将其删除,并且仍然崩溃。有时会在几分钟后和其他几次后崩溃。我试图从并行代码中删除一个核心使用:

cl

但它仍然崩溃。

无论如何,该代码可以修改,因此它拒绝崩溃的输出,例如如果错误然后拒绝并继续!

或者,是否有修改代码来捕获为什么在所有发生的错误的方法吗?

我知道有很多其他序列化(节点$ con)和反序列化(节点$ con)错误帖子,但他们似乎没有帮助我。

我真的很感谢一些帮助。

谢谢。

+0

您可以尝试将有问题的代码包装到'tryCatch'中,并将结果和对象输出到文本/ .RData文件。 –

+0

我想知道如何使用tryCatch - 听起来是可能的。 –

+0

我创建了另一篇文章,试图了解如何使用tryCatch与我的代码http://stackoverflow.com/questions/33733102/how-to-use-trycatch-in-r-with-parallel-code –

linux双机连通找不到con1,Linux服务器崩溃 - 错误在反序列化(节点$ CON):错误的连接...相关推荐

  1. linux有端口找不到进程,linux查看端口和进程

    查看进程 ps -aux | grep appname 杀死进程 kill pid 查看端口: netstat -ap | grep 端口号 netstat -ap | grep 进程名字 lsof ...

  2. linux双机热备 oracle,oracle for linux双机热备实战

    10.0.0.11是我主服务器的ip,10.0.0.111是我从服务器的ip, testdbase是数据库的sid号, 操作系统的版本是RedHat Linux 8.0 数据库版本是Oracle 9. ...

  3. linux格式化光盘找不到介质,Linux挂载光盘的问题解决方案(mount: you must specify the filesystemnbs...

    问题: RHEL 6.4 在虚拟机中挂载光盘报错 [root@localhost ~]# mkdir /mnt/cdrom/ [root@localhost ~]# mount /dev/sr0 /m ...

  4. linux系统ata1.00,由于断电,重启服务器后,LVM卷组出现错误:ata1.00 status drdy err unc...

    具体错误如下: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata1.00: BMDMA stat 0x24 ata1.00: ...

  5. linux主设备编号从0到多少,Linux驱动开发之主设备号找驱动,次设备号找设备

    一.引言 很久前接触linux驱动就知道主设备号找驱动,次设备号找设备.这句到底怎么理解呢,如何在驱动中实现呢,在介绍该实现之前先看下内核中主次设备号的管理: 二.Linux内核主次设备号的管理 Li ...

  6. linux服务器文件偶尔丢失,【服务器运维】linux抛出找不到文件非常的解决方法...

    场景: 项目在windows下接见一般,linux下抛非常,找不到文件. 剖析: 假如接见的项目文件是如许的:abc/bcd/aa.jpg ,而体系中接见文件的途径是:abc/Bcd/aa.jpg,二 ...

  7. oracle linux 双机,oracleforlinux双机热备实战完全手册

    oracleforlinux双机热备实战完全手册 Oracle for linux 双机热备实战完全手册10.0.0.11 是我主服务器的 ip ,10.0.0.111 是我从服务器的 ip, tes ...

  8. 在哪个分区安装linux,partitioning - 如何找出Ubuntu安装在哪个分区上? - Ubuntu问答...

    问题描述 # fdisk -l Disk /dev/sda: 500.1 GB, 500107862016 bytes 255 heads, 63 sectors/track, 60801 cylin ...

  9. Mac上编译Linux内核时找不到ncurses

    Mac上编译Linux内核时找不到ncurses 前言 Linux源码零零散散看了一些,东西太多.今天突然有兴趣想去编译一下Linux内核,就去网上找了一些资料,由于我是用的Mac,然后并没有找到好的 ...

最新文章

  1. CentOS7系统ifconfig无法使用的解决方法
  2. 《JavaScript设计模式与开发实践》阅读摘要
  3. IDEA常用快捷键整理20191105
  4. HDU - 5769 Substring(后缀数组)
  5. Python入门笔记之闭包
  6. python二分法查找时间点_python有序查找算法:二分法
  7. sudo 命令报错的解决方法
  8. Hive 1.2.1SparkSqoop安装指南
  9. 在xcode4.2.1项目中加入oreplot0.9
  10. zabbix server的图像展示接口
  11. Java线程之CompletionService
  12. 老师,你确定注释不会被执行吗?
  13. wifi信号桥怎么设置_扩展WiFi信号有什么好方法?路由器无线万能中继设置方法来了!...
  14. STM32F103mini教程学习总结与心得(四)---->看门狗
  15. 51nod 1273 旅行计划——思维题
  16. Python网络爬虫第一弹《Python网络爬虫相关基础概念》
  17. 燃料电池系统建模(未完待续)
  18. Air202学习 三 (模块串口使用)
  19. 无线路由器dhcp服务器连接失败,TP-Link路由器桥接提示“获取IP地址失败,请检查DHCP是否开启”怎么办...
  20. 单调栈及单调栈的应用

热门文章

  1. 【数量称谓】祖宗十八代
  2. Runtime error: expected scalar type Float but found Double
  3. Selenium 爬取评论数据,就是这么简单!
  4. 计算机一级考试:选择题汇总D(精简版)
  5. 如何打开VoLTE,ViLTE,VoWifi Feature
  6. Web-app,一款简洁高效率绿色html编辑器-安卓软件
  7. 【超好懂的比赛题解】2020ICPC澳门站 个人题解
  8. 国科大计算机体系结构习题整理
  9. 教你怎么召唤百度贴吧繁体字ID
  10. 基于朴素贝叶斯+Python实现垃圾邮件分类和结果分析