摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,深势科技创始人 &首席科学家、北京科学智能研究院研究员张林峰,带来了题为《AI+分子模拟,赋能药物发现新源头》的分享,以下是他的演讲内容整理,供大家阅览:

深势科技创始人 &首席科学家、北京科学智能研究院研究员  张林峰

01 当 AI 能力深入流向千行百业

AI 带给我们的能力,不只是处理大规模的生活数据,也包括科学数据,其本质是表达高维复杂的函数,能够让我们更好地利用科学规律,利用量子力学方程、分子力学方程,能够更高效、更准确地求解物理方程做模拟。比如在药物或材料的设计过程中,在制造飞机、大坝、桥梁等大型工程的过程中,可以先进行计算模拟,在计算机仿真过程中确保没问题再真正进行实验和实体的设计。

而这一系列新技术的突破,将为微观世界工业化的设计和生产带来新的突破。这样一个底层范式驱动的一系列微观世界计算与设计新工具,将为药物研发、材料研发以及很多行业的方方面面带来更多不同。

当今计算生物或药物设计、材料设计、化工设计等场景中,往往期望用计算模拟解决一些问题,但是实现起来非常困难。原因在于解决这些问题的本质,需要有效地描述微观粒子之间的复杂多体作用,最终对应的是求解一些高维复杂的微分方程。而这些方程可能在 100 多年前就已经存在,但一直以来都缺乏有效的计算工具和算法工具来克服维数灾难

维数灾难指求解已经熟知的方程所需要的计算复杂度指数依赖于输入的个数。比如蛋白质体系的输入为几十万起步,而计算的算力需求指数依赖于输入,这也意味着完全不可解。因此我们真正利用计算仿真做进一步计算的时候,需要引入大量的人为近似和人为建模

建模过程使得仿真的精度难以达到现实的需求,这是长期以来我们面临的最大难题。而 AI 的作用是有效地表示电子、分子、原子的相互作用,从而能够克服维数灾难,更高效、更准确地进行模拟,使模拟的准确性能够符合现实要求,能够真正指导实验。

AI for Industry 是将行业发展积累下来的海量数据进行直接的模型训练,并期待它能够解决实际问题。但此处存在数据稀缺的问题,很多行业的数据往往具有一些不利于 AI 使用的特点,比如数据样本量非常少,比如数据 label 非常杂,比如数据里的信息与目标之间的依赖关系非常复杂。

而 AI for Science 带来的机会远不只是对科学数据的直接拟合。科学行业的发展是将科学原理表述为熟知的一系列物理定律和科学方程,AI 能够带来的可能性是学习一些科学原理或物理模型,从而有效地求解物理方程,进一步可用于解决实际问题,能够克服很多数据稀缺导致的问题。在生物医药行业,往往越有价值的靶点、体系,其数据的稀缺程度越高。

因此,计算模拟能够带来很多新的可能性,而 AI 则能够让计算模拟变得更快、更准。

02 生物医药拥抱 AI,为领域创造更多可能

基于 AI 为科学应用尤其药物设计领域带来的能力,也逐步发展出了一系列新工具。药物研发需要的并不是一两个核心的计算工具或一两个重磅功能,而是一个解决方案体系。同时通过不断地迭代,才能真正形成面向行业的可落地解决方案

蛋白结构预测是药物研究领域的常见场景。目前在药物设计领域,一些较为少见的比如 RNA 相关的药物研发等数据丰富程度不高,因而模型效果不够好。一方面,我们需要持续地改进模型,另一方面也需要一些解决方案能够更好地将实际的模拟以及实验相结合。

Uni-Fold 重现了整个蛋白结构预测从 training 到 prediction 到产品化的过程,并在某些 metric 之下取得了更好的成果。此外,我们已经将聚合物、很多复杂情况下所需要的训练代码以及需要的数据和相应的模型都已释放到开源社区,期望进一步地推动药物研究领域的发展。

此外,位点也是药物设计比较关心的维度。尽管整体从 AI 模型预测得到的结果已经非常不错,但是一些局部依然存在一些不足。因此需要结合模拟的手段来进一步 refine,而模拟最常面临的问题是时间尺度。

蛋白的大的构象变化往往需要很长的模拟时间,因此我们通过 RiD 方法,用神经网络表示高维的集合变量所对应的自由能,然后用自由能来加速模拟,再结合 AI 的预测,可以进一步对蛋白的构象进行 refine 并得到更好的结构。

药物设计很多情况下需要考虑别构, AI 的模型预测能够为我们提供正构的构象,而我们还需要增强的采样来帮助发现别构的位点。比如在某个案例中,别构的位点位于左下角。而传统的模拟手段由于 barrier 非常高,因此在比如 50 个纳秒的模拟时间里,大多时候体系的 confirmation 卡在正构的位点下。但是结合 AI 的增强采样,能够很快大范围采集到体系的别构位点。

在药物研发的案例中,我们发现体系正构位点下有共价结合的药物,但共价药物往往选择性比较差,因为它比较活泼,经常容易位移到不同类型的其他不相关位点上。针对该问题,我们找到了比较合适的别构位点,并且针对别构位点进行非共价的药物设计,活性更强。以上实现同样需要有效地结合 AI 的结构预测以及进一步增强采样的模拟。

冷冻电镜结构的解析除了 AI 的模型结合之外,与模拟手段相结合也非常关键。比如给定电镜密度图,它对于最后确定蛋白体系的结构而言,就是一个电子的 constrain。再结合模拟达到的效果,该体系即可很好地贴合到密度图的 constrain。直接的 Uni-Fold 结构预测是结构确定的 initial condition,再结合实验数据,最终得到的 constrain 下的 MD 能够带给我们最理想的结构。

确定结构和靶点之后,需要大规模的虚拟筛选。Docking 方案在过去的十几年前被众多领域频繁使用。但在如今在高性能的计算背景之下,需要对它进行极致的优化——将所有部分都搬到 GPU 上。利用 GPU 的特点对 docking 构象进行 global 搜索,加上局域的优化,可以进行进一步调整,比如 global 的探索参数可以更大,局域的优化可以更并行。

经过一系列针对 GPU 特点的优化,同样精度下的性能得到了巨大提升。并行调度 100 卡 NVDIA V100 GPU 情况下,完成 38million 分子数据库的多级分子对接仅需 11.3 小时。

血脑屏障等类型的疾病需要的分子比较小。而对于一些特定的疾病类型,分子的可能性已经无需尝试,基本可以枚举地做筛选,这也是极致算力和相应算法的结合带来的新的可能。

完成大规模的筛选以及活性的确认后,需要对药物进行进一步改造,以使其符合 ADME/T 等方面的优化需求,同时需要保持其活性。

Uni-FEP 的解决方案能够为药物变化前后结合自由能的改变做定量计算。该计算能力目前已经能够达到化学精度以内的标准,因此大幅节约了合成分子所需的实验成本和时间成本。

03 AI+算力场景需求叠加,上云是大势所趋

药物研发的各个环节已经形成了一整套的计算解决方案。计算的解决方案随着应用场景的深入,会出现很多复杂场景,而场景的复杂度使得解决方案最后的工业化程度上有了新要求。与此同时,算力的基础设施在快速变化,底层的性能特点、是否选择性能优化、是否选择迁移等,在大规模需求之下也会是成本上非常重要的考虑。

基于一些解决方案,药物研发领域形成了 pipeline,它是从结构到动力学、药物的发现、高效关系的建立等一系列环节上形成的计算解决方案。其逻辑也非常简单,主要分为 data driven 和 simulation driven。

一系列解决方案都有高弹性的需求。在高弹性的基础之上,不同的方案对于数据的使用需求非常不一样。比如大部分时候模拟需要的是高算力,而冷冻电镜的数据非常大,这样的灵活性和弹性是过去的计算解决方案难以实现的。因此,上云是大势所趋。

随着深度的业务发展,比如客户使用深势科技的药物研发平台时,私有化的需求非常典型且极具规模。而结合计算巢的方案,使得用户能够更加聚焦于业务需要的软件解决方案,而将私有化部署等交给云来实现

算力和数据算法的发展催生了 AI,而伴随着 AI 的逐步发展,它需要能够真正有效地利用物理规律带来更多来自底层的可能性。

以上就是我今天的分享,谢谢大家。

点击这里,观看嘉宾在本次峰会的精彩演讲视频。

深势科技创始人首席科学家张林峰:AI+分子模拟,赋能药物发现新源头相关推荐

  1. JuiceFS 在多云存储架构中的应用 | 深势科技分享

    2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得 "AI 预测蛋白质结构" 这一领域受到了空前 ...

  2. 360金融首席科学家张家兴:我们如何做数据AI融合中台?

    2020年7月3-4日,在CSDN 主办的第三届 AI 开发者万人大会(AI ProCon 2020)上.360金融首席科学家张家兴博士以"数据+AI融合中台--金融领域人工智能实践&quo ...

  3. 360金融首席科学家张家兴:只靠AI Lab做不好AI中台 | 独家专访

    「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分.通过对 AI 生态顶级大咖.创业者.行业 KOL 的访谈,反映其对于行业的思考.未来趋势判断.技术实践,以及 ...

  4. 智源首席科学家张平文当选美国工业与应用数学学会会士

    3月31日,智源研究院"人工智能的数理基础"重大研究方向首席科学家张平文院士当选2020年美国工业与应用数学学会会士(SIAM FELLOW).张平文现任北京大学副校长,数学科学学 ...

  5. 阿里云超算异构Spot集群,助力深势科技30%成本驱动MDaaS海量算力

    本文主要介绍药物研发算法科技公司深势科技是如何实现低成本在阿里云上构建分子模拟MDaaS (Molecular Dynamics as a Service)超算集群. 客户简介 公司名称:深势科技 公 ...

  6. 前百度首席科学家张栋:36岁以前做到这8点再谈梦想

    2015年1月31日,"拉勾网年度盛典暨中国互联网年度最佳雇主颁奖礼"在北京剧院召开.本次盛典邀请了京东金融集团首席战略官姚乃胜.e袋洗CEO陆文勇.前百度首席科学家张栋.蘑菇街C ...

  7. 专访张泽华:细微中发现问题 源头上解决问题

    http://www.apkbus.com/android-4934-1.html 专访张泽华:细微中发现问题 源头上解决问题 2013-8-6 13:52|发布者: vincy西西1010|查看: ...

  8. 腾讯首席科学家-张正友:AI加速破解生命科学的重要问题

    来源:Tencent AI Lab 5 月 22 日,由「一带一路」国际科学组织联盟发起.广东省人民政府主办的 2023 大湾区科学论坛在广州南沙召开. 腾讯首席科学家.腾讯 AI Lab 及腾讯 R ...

  9. 麒麟芯片AI首席科学家,解读AI芯片如何让手机更智能

    来源:华为 摘要:8月31日,华为发布了新一代顶级人工智能手机芯片--麒麟980,成为全球首款采用7nm制程工艺的手机芯片.麒麟980能做到人脸识别.物体识别.物体检测.图像分割.智能翻译等,实现AI ...

最新文章

  1. strip 命令的使用方法
  2. 基于Java+SpringBoot+vue+node.js实现自行车租赁平台管理系统
  3. mfc远程连接mysql数据库连接_MFC连接mysql数据库(十分钟搞定)
  4. php wmi,wmi与vbs
  5. 什么是三层架构?它的优点是什么?_三层实木和多层实木地板各有什么优劣点
  6. CCF201912-4 区块链(100分)【模拟】
  7. 企业家张振虎:18年,如何从一家小公司发展转型成新能源大集团
  8. 如何管理软件资产及如何管理软件许可资产?
  9. python的词性标注
  10. 如何用python画太阳花
  11. 论文解读:PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
  12. 微信小程序 关于头像上传,showActionSheet,chooseImage,uploadFile
  13. php有个schost.exe_window_XP主要15个系统进程,  1.svchost.exe    进程文 - phpStudy...
  14. HTML+CSS实战(哈罗单车首页)
  15. 黄冠|南昌大学计算机科学与技术,课制|这里有全华师最好看的课件
  16. 【python】png转jpg(pillow)
  17. 应届生拿到offer之后的流程_应届生求职的一般流程和手续
  18. 闪存(SSD)技术,MLC和SLC差距到底有多大?
  19. HTML <b> 标签
  20. centos 7的firewalld防火墙配置IP伪装和端口转发(内附配置案例)

热门文章

  1. 用自建kinetics-skeleton行为识别数据集训练st-gcn网络流程记录
  2. 开关电源IC的选择要求
  3. 2021年中国网络零售行业发展现状及行业发展趋势分析[图]
  4. 最新动态 | 合宙MCU新品即将发布,LuatOS-SoC软硬件齐发力
  5. 【解决报错】java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: YES)
  6. 【考研初试】问题汇总及解答
  7. linux图形图像驱动,Linux_Linux操作系统下USB图像采集驱动的安装,ARMlinux下USB摄像头图像的采集 - phpStudy...
  8. 机器学习基础-23:矩阵理论(L0/L1/L2范数等)
  9. SaaSBase:Flowportal是什么?
  10. 网吧无盘服务器为什么玩地下城和穿越火线卡其它游戏不卡,为什么网吧的电脑配置更低,玩游戏却更快更爽?...