AlphaFold2计算特点:
蛋白质三维结构预测是一项计算量非常巨大的任务,科学家多年的探索研究,形成了X射线晶体学法、核磁共振法、冷冻电镜等。
2021年底,谷歌的DeepMind团队的采用人工智能方法的AlphaFold2算法在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,AlphaFold2是当今预测蛋白质3D结构的最强工具。它将被大量用于推动世界蛋白质研究向前发展。

AlphaFold2在国际蛋白质结构预测竞赛(CASP14)上精确地基于氨基酸序列预测蛋白质的3D结构。其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。

目前情况(大致统计):
(1)Deepmind开源了AlphaFold2的源代码(推理部分)
(2)华盛顿大学开源了RoseTTRFold的源代码(推理部分)
(3)深势科技复现了AlphaFold的训练部分,并开源代码(训练和推理)
(4)上海天壤智能科技有限公司复现了TRfold训练部分和推理部分
(5)上海交大对AlphaFold2的推理代码进行了优化(推理并行版)

(一)AlphaFold2蛋白质结构预测计算特点
如何配置好硬件,最快速度完成训练、推理计算,首先分析其计算过程以及算法特点

图1 Alphafold2计算示意图

环节1 数据处理-序列特征生成计算特点

计算过程
总输入单个蛋白质序列FASTA格式(推理);
通过搜索工具(jackHMMER/HHblits)分别对多个遗传数据库--执行隐马尔可夫模型的搜索生成MSA(序列-残基);见图1
搜索的结构和序列产生的Pairing信息(残基-残基);
通过HHsearch搜索的Template

计算与硬件配置分析
数据库搜索过程涉及数据库密集I/O读写,数据放到高速SSD硬盘上,数据量累积超过2TB,非常耗时,加速手段提升CPU计算速度。

硬件配置
CPU计算为主,内存要够大,或配备NVME SSD固态卡,容量4TB以上

环节2 神经网络预测计算特点

计算过程
利用多序列比对(MSA),把蛋白质的结构和生物信息整合到深度学习算法中,主要包括:神经网络EvoFormer和结构模块(Structure module).
在EvoFormer中,主要是将图网络(Graph networks)和多序列比对(MSA)结合完成结构预测,Alphafold2使用Transformer结构,不管是MSA还是残基-残基对的信息更新都使用了Attention机制,结构模块的更新使用了三角法则,简化了计算的复杂度,准确率也提高了不少.
结构模块(Structure Module)主要工作是将EvoFormer得到的信息转换为蛋白质3D结构.
整个模型的Evoformer和Structure module部分都使用了Recycling,即将输出重新加入到输入在重复refinement,进行信息的精炼.
计算特点
上述计算过程用GPU更合理,对GPU要求是高显存带宽、大容量显存、大蛋白质计算通过将多GPU卡设置统一内存架构,大的显存可支持更大的计算数据存放

计算架构分析汇总

No

主要环节

任务分类

计算时间占总求解时间比例

计算特点

配置方案

1

序列特征生成

(a)多序列比对

(b)模板搜索

计算时间占总计算时间的大约60%

CPU计算

有限多核

高频CPU加速

4TB容量的NVME SSD盘

2

神经网络预测

(c)模型预测

(d)AMBER优化

计算时间占总计算时间的大约40%

单GPU计算(推理)

多GPU计算(训练)

显存容量大,支持更长序列蛋白计算(最大长度1500,大于300个残基)

多卡统一内存模式

(二)蛋白质结构预算AI工作站配置推荐2022v1

硬件配置具有以下特点:
1)配备CPU规格均以高频为主,兼顾足够CPU核数,这样保证数据预处理(最慢的环节),计算时间大幅缩短,GPU卡采用单精度指标高的、显存容量大的,保证神经预测计算加速,满足AlphaFold2的理想的配置方案
2)整机的cpu、gpu、硬盘配置,满足AlphaFold2推理(包括上海交大并行版)计算要求,均衡无死角,性能最大化;
3)为深势科技的Uni-Fold训练、推理模块提供理想配置架构;
4)每个配置机器做到即开即用,并提供硬件+优化+稳定高速运行技术支持服务
5)支持大规模的计算扩展应用需求

2.1 蛋白质结构预测工作站配置参考

NO

品牌与型号

配置规格

价格

 

1

GA310i 15064-MCT

intel 12代高频处理器(共计16核,8核@5.0GHz,8核@4.2GHz/96GB DDR4/ RTX3090 24GB/480GB SSD/3.84TB PCIe.SSD/6TB SATA企业级/微塔式(1500w)/24寸-2K显示器

57500

AF2推理型

2

GA310i 150128-MCE

intel 12代高频处理器(共计16核,8核@5.0GHz,8核@4.2GHz/128GB DDR4/A6000 48GB/480GB SSD/3.84TB PCIe.SSD/8TB SATA企业级/微塔式(1500w)/24寸-2K显示器

80500

AF2推理顶配型

3

GT420i 139192-MCE

Xeon 银4316处理器(共计20核,3.9GHz) /192GB DDR4/A6000 48GB/480GB SSD /3.84TB PCIe.SSD/8TB SATA企业级/微塔式(1500w)/24寸-2K显示器

89990

并行优化加速型

4

GT420i 139128-MC2T

Xeon 银4316处理器(共计20核,3.9GHz) /128GB DDR4/2*RTX3090 24GB/480GB SSD/3.84TB PCIe.SSD/16TB SATA企业级/微塔式(1500w)/24寸-2K显示器

99990

多任务高速型

5

GT420i 139384-MC2E

Xeon 银4316处理器(共计20核,3.9GHz)/384GB DDR4/2*A6000 48GB/1TB SSD /3.84TB PCIe.SSD/8TB SATA企业级/微塔式(1500w)/24寸-2K显示器

148000

多任务大规模计算型

6

GX650M 239256-MC4T

2*Xeon 银4316处理器(共计40核,3.9GHz )/256GB DDR4/4*RTX3090 24GB /1TB SSD/3.84TB PCIe.SSD/16TB SATA企业级/双塔式(2000w)/24寸-2K显示器

185000

多任务高速加强型

7

GX650M 239512-MC4E

2*Xeon 银4316处理器(共计40核,3.9GHz )/512GB DDR4/4*A6000 48GB /1TB SSD /3.84TB PCIe.SSD/2*16TB SATA企业级/双塔式(2000w)/24寸-2K显示器

275000

全能加速型

8

GX650M 239512-MC7T

2颗Xeon 银4316处理器(共计40核,3.9GHz )/512GB DDR4/7*RTX3090 24GB /1TB SSD /3.84TB PCIe.SSD/18TB SATA企业级/双塔式(2000w)/24寸-2K显示器

289000

多任务超大规模加强型/

9

GX650M 2371T-MC6E

2颗Xeon 金5320处理器(共计52核,3.7GHz)/1TB DDR4/6*A6000 48GB /2TB SSD/3.84TB PCIe.SSD/2*18TB SATA企业级/双塔式(2000w)/24寸-2K显示器

399990

推理/训练多任务高速型

10

GX650M 2351T-MC8E

2颗Xeon 铂金8358处理器(共计64核,3.5GHz)/1TB DDR4/8*A6000 48GB /2TB SSD/7.68TB PCIe.SSD/2*18TB SATA企业级/双塔式(2000w)/24寸-2K显示器

499990

推理/训练极致型

2.2 AlphaFold训练集群配置参考

集群技术特点
(1)本集群是由高频服务器、GPU计算服务器、管理服务器、并行存储服务器组成。
(2)集群硬件配置每个环节都基于人工智能预测蛋白质三维结构算法最快优化设计。
(3)【高频服务器】采用有限多核高频CPU、高速NVME SSD用于密集海量序列比计算,计算性能和io读写性能完美匹配高效,支持多个单核计算或2个以上并行版的比对软件同步计算。
(4)【GPU计算服务器】配备最新Xeon3代处理器,32核+8块RTX A6000 48GB,cpu频率和pcie 4.0 x16是蛋白质折叠人工智能并行计算最理想架构。
(5)作业调度软件针对蛋白质预测元计算两个主要环节:序列比对计算(CPU有限多核计算环节)、人工智能预测(GPU多卡并行计算环节),
序列比对计算环节--调用【高频服务器】处理,
蛋白质结构预测计算环节--调用多台【GPU服务器】并行计算。
(6) 集群性能从硬件架构、作业调度系统均比常规集群性能达到极致,全新改写的作业调度系统,比市面上的作业调度系统效率更高。

方案1 蛋白质智能预测集群方案(40块GPU卡)

NO

型号

技术规格

数量

单价

小计

1

高频计算服务器

intel 12代高频处理器(共计16核,8核@5.0GHz,8核@4.2GHz) /128GB DDR4/480GB/3.84TB U2.SSD /4U机架式(650w)/25GbE网口

1

32000

32000

2

GPU超算服务器

2颗Xeon 银4314(32核@3.5GHz)/512GB/8块A6000 /960GB/4U机架式(2000w  2+2冗余/25GbE网口

5

458000

2290000

3

并行存储服务器

2颗Xeon 银4310(24核@2.1GHz)/128GB /960GB /3.84TB U2 NVME /224TB并行存储(双通道)/4U机架式(1200w 1+1冗余/100GbE网口

1

115000

115000

4

管理服务器

2颗Xeon 银4210 /128GB /Quadro P2000/ 1.92TB/2U机架式/千兆

1

35000

35000

5

计算交换机

MSN2010 4*100G/18*25G,2U机架式

1

45000

45000

6

管理交换机

24口千兆,1U机架式

1

2800

2800

7

KVM切换器

16口 VGA,1U机架式

1

1800

1800

8

机柜

42U

1

5500

5500

9

集群系统

UltraLAB PSS作业调度管理软件(5节点)

1

50000

50000

 

 

 

 

 

 

 

合计

贰佰伍拾柒万柒仟壹佰

¥2,577,100元

方案2 蛋白质智能预测集群方案(80块GPU卡)

NO

型号

技术规格

数量

单价

小计

1

高频计算服务器

2颗Xeon 银4316处理器(40核@3.9GHz,睿频4.4GHz) /512GB DDR4/480GB/3.84TB U2.SSD /4U机架式(650w)/ 25GbE网口

1

75000

75000

2

GPU超算服务器

2颗Xeon 银4314(32核@3.5GHz)/512GB/8块A6000 /960GB/4U机架式(2000w  2+2冗余/25GbE网口

10

458000

4580000

3

并行存储服务器

2颗Xeon 银4310(24核@2.1GHz)/128GB /960GB /3.84TB U2 NVME /224TB并行存储(双通道)/4U机架式(1200w 1+1冗余/100GbE网口

1

115000

115000

4

管理服务器

2颗Xeon 银4210 /128GB /Quadro P2000/ 1.92TB/2U机架式/千兆

1

35000

35000

5

计算交换机

MSN2010 4*100G/18*25G,2U机架式

1

45000

45000

6

管理交换机

24口千兆,1U机架式

1

2800

2800

7

KVM切换器

16口 VGA,1U机架式

1

1800

1800

8

机柜

42U

2

5500

11000

9

集群系统

UltraLAB PSS作业调度管理软件(10节点)

1

100000

100000

 

 

 

 

 

 

 

合计

肆佰玖拾陆万伍仟陆佰

¥4,965,600元

方案3 蛋白质智能预测集群方案(128块GPU卡)

型号

技术规格

数量

单价

小计

1

高频计算服务器

2颗Xeon 银4316处理器(40核@3.9GHz,睿频4.4GHz) /512GB DDR4/480GB/3.84TB U2.SSD /4U机架式(650w) /25GbE网口

1

75000

75000

2

GPU超算服务器

2颗Xeon 银4314(32核@3.5GHz)/512GB/8块A6000 /960GB/4U机架式(2000w  2+2冗余/25GbE网口

16

458000

7328000

3

并行存储服务器

2颗Xeon 银4310(24核@2.1GHz)/128GB /960GB /3.84TB U2 NVME /224TB并行存储(双通道)/4U机架式(1200w 1+1冗余/100GbE网口

1

115000

115000

4

管理服务器

2颗Xeon 银4210 /128GB /Quadro P2000/ 1.92TB/2U机架式/千兆

1

35000

35000

5

计算交换机

MSN2010 4*100G/18*25G,2U机架式

1

45000

45000

6

管理交换机

24口千兆,1U机架式

1

2800

2800

7

KVM切换器

16口 VGA,1U机架式

1

1800

1800

8

机柜

42U,含PUD,托盘,

3

5500

16500

9

集群系统

UltraLAB PSS作业调度管理软件(16节点)

1

150000

150000

 

 

 

 

 

 

 

合计

柒佰柒拾陆万玖仟壹佰

¥7,769,100元

欢迎测试验证

Alphafold2蛋白质三维结构预测AI工作站配置相关推荐

  1. 2018最新CATIA飞机协同设计制造工作站配置方案

       2018最新CATIA飞机协同设计制造工作站配置方案 大型飞机产品结构极其复杂,气动外形要求严格.设计不断修改.产品构型众多.零件材料和形状各异.内部结构复杂.空间紧凑.各类系统布置密集以及零组 ...

  2. 2019最快三维CAD设计工作站硬件配置推荐

    市场对产品设计要求越来越高,三维模型精度越来越复杂,使得常规图形工作站设备硬件配置性能明显不够,交互设计环节,模型的移动.转动.缩放.打开都变得卡顿.迟滞,或CAE仿真计算时间太长.三维CAD设计软件 ...

  3. iMeta | 华中科大宁康组综述宏基因组数据用于蛋白质三维结构预测的方法论

    点击蓝字 关注我们 Review:用于蛋白质结构预测的宏基因组定量分析 https://doi.org/10.1002/imt2.9 2022/3/6 ● 2022年3月6日,华中科大宁康组在iMet ...

  4. 重磅!保姆级教程:个人深度学习工作站配置指南

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨稚晖@知乎 来源丨https://zhuanlan.zhihu.com/p/336429888 ...

  5. 收藏 | 个人深度学习工作站配置指南

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:稚晖,电子科技大学,编辑:极市平台 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打 ...

  6. 【深度学习】保姆级教程:个人深度学习工作站配置指南

    文 | 稚晖 源 | 知乎 编 | 极市平台 来源:夕小瑶的卖萌屋 前言 工作原因一直想配置一台自己的深度学习工作站服务器,之前自己看完paper想做一些实验或者复现模型的时候只能用自己的日常PC来跑 ...

  7. 将3060独显笔记本升级为高级AI工作站

    将3060独显笔记本升级为windows +Ubuntu AI工作站 背景:我搞AI的,手头有一个笔记本,显卡Nvidia3060 6G显存,磁盘和内存较低.固态硬盘只有128G,我安装了window ...

  8. 个人深度学习工作站配置指南

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|机器学习算法那些事 导读 本文记录了组装深度学习工作站过 ...

  9. 大型Solidworks装配设计与仿真工作站配置方案

    主要内容 (一)三维设计与仿真计算卡顿.计算慢问题分析 (二)UltraLAB图形工作站件硬件配置       2.1大型三维建模工作站配置推荐        2.2大型装配设计.仿真模拟工作站配置推 ...

  10. 虚拟现实VR(视景仿真、系统仿真、可视化)工作站配置方案

    主要内容 第一章 虚拟现实(视景仿真.系统仿真.可视化)系统介绍 第二章 虚拟现实系统对硬件技术要求 第三章 行业应用VR工作站配置方案            VR应用1-视景仿真与训练工作站配置方案 ...

最新文章

  1. GARFIELD@01-18-2005
  2. Android --- RecyclerViwe中使用SnapHelper报错:“An instance of OnFlingListener already set.”
  3. 北二外有绵羊语系吗?
  4. linux虚拟机保存指令,vmware虚拟机命令保存
  5. php cdi_通过MicroProfile上下文传播增强了CDI上下文和隔板
  6. 最新!MongoDB 重磅发布 MongoDB 5.0 和无服务器 Atlas
  7. Vue 组件开发 - 数据输入框组件
  8. SpringBoot整合(Elasticserch)
  9. 雅马哈机器人左手右手系统_3名工人花1000元用两天拼装机器人,空气不好时自动喷水...
  10. Apeaksoft iOS Toolkit for Mac数据恢复软件
  11. T420i 简单拆机 (只拆两个螺丝清灰)
  12. Android对话框的大小设置
  13. matlab中if语句的条件,matlabif条件语句
  14. 如何成为一流的「匠人」?
  15. Genesis公链确定亮相Consensus 2022大会
  16. 学术会议日常英语交流_有效的日常会议的3个问题
  17. webservice 搭建(一)
  18. Ubuntu镜像文件下载
  19. c语言程序设计德军,C语言程序设计上机实验与习题解答
  20. 计算机研究生模拟考试题,考研计算机冲刺模拟样题及答案解析

热门文章

  1. 阿诺医药C轮融资近1亿美元,快速推进肿瘤免疫创新药全球研发
  2. 《web安全深度剖析》——信息探测and漏洞扫描
  3. Wordpress安装搭建windows
  4. background复合属性顺序_background(css复合写法)
  5. vue -【nextTick】-【过度与动画】-【插槽】-【配置代理服务器】-【vuex】-【路由】
  6. 出行即服务MaaS精华主题汇总(更新至20220827)
  7. 2022-2027年中国精华素行业市场深度分析及投资战略规划报告
  8. Excel转换成VCF
  9. 如何获得TTF字体中字符对应的编码?
  10. 简单个人静态HTML网页设计作品——广西北海家乡旅游景点 10页 DIV布局个人介绍网页模板代码 DW个人网站制作成品 web网页制作与实现