MOE(Molecular Operating Environment)是加拿大化学计算集团公司Chemical Computing Group Inc.开发的一套计算机辅助药物分子设计的平台

做化学/生物这一类计算,场景很多,应用选择范围也相当大,甚至同一场景可能用到很多不同的应用。就拿分子对接举例,相关软件就有开源的和商业的不下数十种。

熟悉并习惯一种应用,已经需要不低的学习成本,何况这些应用往往还留了一些API接口给用户,需要写一些脚本才能运行。

而且很多时候,现成的应用是无法满足用户的研究需求的,需要用户自己来编程

另一个角度:

如果计算量突增,就会涉及到大规模计算资源的调用,可能涉及本地服务器、集群,甚至超算和公有云。

或者计算量还好,但是不想再重复劳动,能不能一次操作完成所有需要手动一次次做的事,一百次就忍了,一千次,一万次呢?

或者不需要团队每个人重复一遍同样的学习过程,做个模板它不香吗?

工具的最大价值,是把人从机械性的重复劳动中解放出来,腾出时间来思考更重要的事。

今天我们就通过一个MOE实证来聊聊,我们怎么帮你降低工作量(偷懒),节约时间,甚至预测未来。

用户需求

某高校课题组使用MOE对数据库中的约200000个分子进行模拟,希望在2天内完成计算。根据以往经验,单核CPU模拟一个分子所需的时间约为4分钟,该课题组当前可使用的机房CPU资源最多为64核,需要一周以上才能完成任务。

课题组老师希望借助云端获取更多计算资源,而且由于课题组团队有多名学生,所以需要一个既能快速启用满足需求,同时又操作简单便于管理的解决方案。

实证目标

1、MOE任务是否能在云端有效运行?

2、fastone平台能否将大规模MOE任务的运算时间缩短到2天以内?

3、fastone平台能否快速启用,同时方便老师对整个团队进行管理?

4、由于不是所有的学生的计算机基础都非常强,fastone能否为其提供相对简单可行的操作方式?

实证参数

平台:

fastone企业版产品

应用:

MOE

操作系统:

Linux CentOS 7.5

适用场景:

3D分子可视化、基于结构/片段的药物设计、蛋白质/DNA/RNA建模、虚拟筛选、分子模拟、化学信息学

云端硬件配置:

计算优化型实例

本任务属于CPU密集型任务,对内存的需求不高,因此我们选择了高性价比的云端计算优化型实例(CPU/内存=1:2)。

技术架构图:

第一步

我们先做一波应用优化

应用优化分成两部分,自定义工作流和并行化改造

1、自定义工作流模板

一次制作,反复使用

正如我们开头说的,很多时候,现成的应用往往无法满足用户的需求,需要根据自己的模型和研究目标,自定义设置一套独有的工作流程。

在生命科学领域,可以说几乎没有一模一样的工作流。

 

而用户在进行了一次或多次复杂的设定之后,如果能把这些设定保存成固定模板,就不用重复手动去一步步重新设置。十次百次还能忍,一千次呢?

一次制作,反复使用,省时省力,还不用担心中间出错。

我们fastone平台已经实现包括MOE在内多款应用的自定义工作流,可以根据用户的实际使用场景自定义模板。

而且,这套自定义的设置是可以跨应用存在的,不一定局限在一个应用范围内。

自己重复用,共享给团队的其他人用,都可以。

我们这套自动化的原则,不仅存在于应用层面,同时也能在资源的调度和部署层面实现。

比如不用再一台台机器手动安装配置,不用时刻盯着任务进程。

自动化部署相比手动模式究竟有哪些优势?看这里《EDA云实证Vol.1:从30天到17小时,如何让HSPICE仿真效率提升42倍?》

2、应用并行化改造

应用并行化改造,通俗地讲,就是你在云端弄到了1000核资源,怎么把任务扔到云端,让其能够在1000核资源上高效地跑起来,这就是应用并行化改造需要解决的问题。

像MOE这样的应用,由于单分子计算时间短,分子计算独立,子任务之间没有通信开销,输入输出数据量小,特别适合并行化运行。改造完成后,MOE任务可在云端分为若干子任务独立计算,节省大量时间。

如何从零开始进行应用并行化改造,可以看这篇《EDA云实证Vol.7:揭秘20000个VCS任务背后的“搬桌子”系列故事》

这一波应用优化做完后,用户可以省时省力地利用云端资源,轻松提升应用运行效率。

第二步

我们开始大规模MOE任务上云

云端扩展性验证

本地/云端计算优化型实例

3000个分子

结论:

1、同等核数下,云端计算优化型实例的表现与本地计算资源相差无几;

2、对应用进行并行化改造后,随着云端核数的增加,运算时间呈线性下降。当CPU核数从64核增加到384核(6倍)之后,运算时间从188.9分钟缩短为32.2分钟(5.9倍)。

实证过程:

1、本地使用64核计算资源运算一组MOE任务(模拟约3000个分子),耗时190.4分钟;

2、云端调度64核计算优化型实例运算一组MOE任务(模拟约3000个分子),耗时188.9分钟;

3、云端调度128核计算优化型实例运算一组MOE任务(模拟约3000个分子),耗时94.7分钟;

4、云端调度256核计算优化型实例运算一组MOE任务(模拟约3000个分子),耗时47.4分钟;

5、云端调度384核计算优化型实例运算一组MOE任务(模拟约3000个分子),耗时32.2分钟。

云端大规模业务验证

200000个分子

结论:

云端调度384核计算资源,将一组MOE任务(模拟约200000个分子)的计算周期从本地预估的8.7天缩短为1.5天,符合“2天内完成”的任务目标。

实证过程:

1、云端调度64核计算优化型实例运算一组MOE任务(模拟约200000个分子),耗时12576分钟(与本地机房64核的预估时间相仿);

2、云端调度128核计算优化型实例运算一组MOE任务(模拟约200000个分子),耗时6290分钟;

3、云端调度256核计算优化型实例运算一组MOE任务(模拟约200000个分子),耗时3146分钟;

4、云端调度384核计算优化型实例运算一组MOE任务(模拟约200000个分子),耗时2138分钟。

在本实证中,无论是模拟3000个分子还是200000个分子,MOE的线性扩展都相对良好,当云端资源增加到384核之后,运算时间已经成功缩短到了2天以内。

即便模拟的分子数量增加到百万甚至千万级别,经过应用并行化处理的MOE依旧可以很好地应对,同时fastone平台还支持使用对象存储自动优化存储效率和费用,以最大化地降本增效。

有些应用特性不一样,如LS-DYNA和Fluent这两个应用,随着计算节点规模的增加,节点间通信开销会指数级上升,性能的提升便随之变缓。这种情况,我们也有经验:

《怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

《LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置》

第三步

智能预测成本,提前心里有底

在期限内成功完成了200000个分子的模拟之后,课题组开始计划下一步任务。

出于对课题总体预算的把控,老师希望能对几个大规模MOE运算任务的花费进行预估,做到心中有数,以便及时调整计划。

这时候,就轮到fastone平台的智能预测功能发挥了。

用户在fastone平台的图形化操作界面运算MOE任务,完成以下步骤:

1、用户上传数据文件(平台自动解析文件,判断其中包含的分子数量)

2、用户输入期望的运算时间平台推荐用户适配机型或用户自行选择机型)

3、系统得出预测成本

根据不同用户的需求,fastone平台还可以为用户分别提供成本优先和时间优先的智能调度策略《生信云实证Vol.3:提速2920倍!用AutoDock Vina对接2800万个分子》

老师可以根据预测成本提前权衡,并在此基础上进行预算管控。

而对于企业用户,涉及到预算审批流程,这块就显得更为重要,项目负责人能够非常方便地使用该功能预估项目费用,完成项目规划和申请。

第四步

权限和角色管理,团队必备

对于团队来说,fastone平台的权限和角色管理功能,支持管理员角色对每一个用户进行相关权限设定,包括预算使用上限和CPU核数使用上限

这是很多团队在上云时都可能面临的问题——团队成员共用一个账户,共享一个资源池和总预算额度。团队管理者——通常是课题组老师——对于项目整体消耗的总资源和总预算有一个清晰的概念,但往往很难对具体的操作人员进行计算资源和预算上限管控。

云计算的灵活性和扩展性使得这种管理的重要性大大提升,这里就有一个反面教材《2小时,账单47万!「Milkie Way公司破产未遂事件」复盘分析》

fastone平台的权限控制功能方便管理员从全局角度管控项目的资源消耗。该功能与智能预测配合使用,能够从多个层面对预算和资源进行全方位规划。

实证小结

1、MOE任务能够在云端有效运行;

2、fastone平台成功将大规模MOE任务的运算时间缩短到了2天以内;

3、fastone平台自定义工作流模板功能让用户一次制作,反复使用,既适配生命科学领域应用特性,又大幅提升用户和团队工作效率;

4、fastone平台的智能预测、权限和角色管理功能让课题组老师能够更轻松进行团队管理和项目规划。

本次生命科学行业云实证系列Vol.9就到这里了。

下一期的生信云实证,我们聊Schrödinger。

请保持关注哦!

关于fastone云平台在其他应用上的表现,可以点击以下应用名称查看:

HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA

END -

我们有个生物/化学计算云平台

集成多种生命科学领域应用,大量任务多节点并行

应对短时间爆发性需求,连网即用

跑任务快,原来几个月甚至几年,现在只需几小时

5分钟快速上手,拖拉点选可视化界面,无需代码

支持高级用户直接在云端创建集群 

扫码免费试用,送300元体验金,入股不亏~

更多电子书

欢迎扫码关注小F(ID:imfastone)获取

你也许想了解具体的落地场景:

LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置

揭秘20000个VCS任务背后的“搬桌子”系列故事

155个GPU!多云场景下的Amber自由能计算

怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

国内最大规模OPC上云,5000核并行,效率提升53倍

提速2920倍!用AutoDock Vina对接2800万个分子

从4天到1.75小时,如何让Bladed仿真效率提升55倍?

从30天到17小时,如何让HSPICE仿真效率提升42倍?

关于为应用定义的云平台

【大白话】带你一次搞懂速石科技三大产品:FCC、FCC-E、FCP

AI太笨了……暂时

速石科技成三星Foundry国内首家SAFE™云合作伙伴

Ansys最新CAE调研报告找到阻碍仿真效率提升的“元凶”,竟然是Ta……

【2021版】全球44家顶尖药企AI辅助药物研发行动白皮书

EDA云平台49问

国内超算发展近40年,终于遇到了一个像样的对手

帮助CXO解惑上云成本的迷思,看这篇就够了

花费4小时5500美元,速石科技跻身全球超算TOP500

1分钟告诉你用MOE模拟200000个分子要花多少钱相关推荐

  1. 一分钟告诉你究竟DevOps是什么鬼?

    一分钟告诉你究竟DevOps是什么鬼? id="iframe_0.9873291294338098" src="data:text/html;charset=utf8,% ...

  2. 一分钟告诉你究竟DevOps是什么鬼

    一分钟告诉你究竟DevOps是什么鬼?¶ 历史回顾¶ 为了能够更好的理解什么是DevOps,我们很有必要对当时还只有程序员(此前还没有派生出开发者,前台工程师,后台工程师之类)这个称号存在的历史进行一 ...

  3. java和python的比较-如何对比Python和Java,只需三分钟告诉你!

    原标题:如何对比Python和Java,只需三分钟告诉你! Java和Python两门语言都是目前非常热门的语言,可谓北乔峰南慕容,二者不分上下,棋逢对手.但是对于初学者来说,非常困惑,因为时间和精力 ...

  4. android手机迁移,换手机不用愁,一分钟告诉你如何将手机数据快速迁移!

    原标题:换手机不用愁,一分钟告诉你如何将手机数据快速迁移! \ 想必换手机是让大家开心的一件事,但是旧手机里一定也有一些重要的数据(照片.联系人.应用程序等),为了防止丢失,那么,我们怎么将这些数据导 ...

  5. 3分钟告诉你什么是商业模式

    3分钟告诉你什么是商业模式 作者:刘大大 链接:https://zhuanlan.zhihu.com/p/25163552 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出 ...

  6. 五分钟告诉你什么是MySQL的覆盖索引

    文章目录 五分钟告诉你什么是MySQL的覆盖索引 覆盖索引 总结 参考 五分钟告诉你什么是MySQL的覆盖索引 前面我们已经对MySQL索引底层原理多少有一定的了解了,还不是很了解的小伙伴可以看我之前 ...

  7. 分子模拟计算机仿真,化工模拟:从分子计算到过程仿真

    化工模拟:从分子计算到过程仿真 出版时间:2017 内容简介 本书主要介绍分子模拟和过程仿真的基本原理,并通过典型实例讲解Gaussian和Aspen Plus软件在化工研究与设计中的应用.全书共分6 ...

  8. 这篇文章告诉你开发个人小程序要花多少钱

    微信小程序大家都不陌生,只是很多人对它有误解,以为只有企业和商家才能注册开发.其实个人也可以注册小程序!而且门槛很低,不需要懂什么技术或者设计知识.激动吗?很多小白人不太懂做个人小程序,所以我来告诉你 ...

  9. 绯闻女孩传八卦也能作为区块链协议?10分钟告诉你为啥

     戳蓝字"区块链大本营"关注我们哦! <Gossip Girl(绯闻女孩)>剧照 你一定看过<绯闻女孩>这部剧,反正营长是一遍又一遍看了无数遍,喜欢喜欢!但 ...

最新文章

  1. mysql 主从,主主,主主复制时的主键冲突解决
  2. python装饰器功能是冒泡排序怎么做_传说中Python最难理解的点|看这完篇就够了(装饰器)...
  3. javascript--弹出对话框 四种对话框 获得用户输入值 .
  4. 硬核,这个充电宝居然烧煤气!
  5. C#控制台程序中处理2个关闭事件的代码实例
  6. AndroidManifest.xml文件解析(转帖)
  7. 安装ntop及快速安装rrdtool的方法
  8. 算法学习之路|最小生成树——prime算法
  9. usd to php exchange,999500 USD to PHP Currency Converter - 美元 菲律宾比索 汇率兑换
  10. iOS面试题系列之常见算法
  11. iOS app加密探究爱加密iOS app加密原理
  12. CDGA|数据治理如何做?找准目标是关键
  13. RHEL Linux 8.3 通过 BIND 实现 DNS 基本功能
  14. 什么是H5页面及又该如何制作?
  15. 安卓手机还有这么多神仙玩法,关键只有少数人知道
  16. 商家如何抓住当下最火的抖音本地生活?
  17. 继俄罗斯之后,中国也要拥有自己的 Sailfish 移动系统了
  18. 编译安装zabbix时遇到configure: error: no acceptable C compiler found in $PATH 问题解决
  19. 漫步凸分析十一——分离定理
  20. php中reset是什么意思,reset是什么意思

热门文章

  1. linux设置软件的路径,linux下查看和设置软件的安装路径
  2. 往word表中写数据
  3. 怎么把腾讯QLV格式的“将夜”转换成MP4
  4. VS2013+Ceres编译教程 Win7系统
  5. 集成电路CAD课程实验报告:反相器电路设计、版图设计与仿真
  6. 基于广度优先遍历算法求采用邻接表存储的无向连通图G中从顶点u到v的最短路径
  7. 梦之光芒/黑客小游戏
  8. 计算机课遇到游戏,信息技术课玩游戏的现象及想法
  9. 二手平台android界面,Android二手书交易app设计(2)启动图Activity
  10. Summer Project