来源公众号:分子动力学

文献解读

派言派语 写在前面

分子力场是分子模拟的基础,是准确计算原子之间的相互作用。一般而言,MD模拟结果的准确性主要依赖于模拟中所选用的分子力场,其精度直接决定了动力学模拟结果的可靠性。

力场一般分为三种:

i)全原子力场:精确定义每一个原子的参数。

ii)联合原子力场:省略非极性氢原子,同时把其参数整合到与他们成键的相邻原子上。

iii)粗粒化力场:进一步精简分子结构的力场参数,种类比较多。

随着人工智能的兴起,机器学习方法开始被应用到分子力场的构造中,实现了模拟效率和精度的完美结合。然而,目前机器学习力场的评价标准都局限于力和能量的预测精度。

鉴于此,麻省理工学院电子工程与计算机科学系付襄团队在《Journal of Computational Physics》上发表研究论文。

他们梳理了具有代表性的MD体系,包括水、有机小分子、多肽和晶体材料,并设计了与各自体系科学目标相对应的评价指标,说明了目前精度较高的一些机器学习力场并不能很好地再现轨迹。

并对一组最先进的(SOTA) ML FF模型进行了基准测试,并说明了通常的基准力精度如何与相关的模拟指标不一致。

他们展示了所选SOTA方法何时以及如何失效,并给出了进一步改进的方向。研究者提出,稳定性应该成为机器学习力场评价的一个新标准。

PDF原文回复“0314”获取。

内容梳理 结果讨论

MD模拟为材料和生物体系中的物理现象提供了原子级的见解。这类模拟通常基于力场(FF)来表征系统的势能面(PES),然后使用牛顿力来模拟长轨迹。

PES本身具有计算上的挑战性,理想情况下可以通过计算昂贵的量子化学来完成。传统上,替代方案是参数化的力场。

最近,机器学习(ML)力场被证明有望在保持量子化学准确性的同时,将MD模拟加速一个数量级。然而,仅仅依靠力的精度并不足以进行有效的模拟。

图1:水-10K上的结果

目前最先进的(SOTA)ML FF是否能够模拟各种MD体系?什么可能导致模型在模拟中失败?

研究者旨在通过一个新的基准研究来回答这些问题。首先为ML MD模拟引入了一个新的基准套件,包括模拟协议和定量指标。他们进行了大量的实验来测试一组SOTA ML模型。

此外,还提供了一个完整的代码库,用于训练和模拟有ML FF的MD,以降低入门门槛,并方便未来的研究工作。

图2:基础测试系统的可视化

研究表明,许多现有的模型在基于模拟的基准上进行评估时是不充分的,即使它们显示出准确的力预测。

ML力场通过应用核方法和神经网络等表达式回归器,从数据中学习势能表面(PES),以保持原子环境的对称性表示。

现有的ML力场的基准大多集中在力/能量预测上,以小分子体系最为典型。以催化剂为重点的OC20和OC22基准提出了从初始结构到弛豫结构/能量的任务,其目的是通过结构优化预测弛豫结构/能量。

研究者希望扩展现有的基准,以扩大对在多个尺度上表现出复杂的分子间相互作用的系统类型的覆盖。

他们选择了四个有代表性的MD体系(总结于表1):小分子、液态水、肽和固态材料。为了便于相对容易和快速的基准测试,研究者将体系的尺寸限制在200个原子以下。

表1:数据集汇总量化模拟稳定性

ML FFs会产生不稳定的动力学。因此,轨迹可以进入对可观测计算没有意义的非物理状态。

MD17数据集包含8个有机小分子的AIMD计算,被广泛用作ML FFs的力预测基准。研究者采用了来自MD17的四个分子并测试了模拟性能。

对于每个分子,从MD17数据库中随机抽取9500个构型用于训练,500个用于验证。从剩余的数据中随机抽取10000个配置进行力误差评估。

在Nosé-HOOVer恒温器下,从5个随机采样的测试构型中初始化,对每个模型/分子进行5次300ps的模拟,时间步长为0.5fs,温度为500K。

表2:MD17的结果

可以说是生物和化学过程中最重要的分子流体。由于其复杂的热力学和相行为,给分子模拟带来了巨大的挑战。

除了力误差外,还评估了平衡统计量和动力学统计量,即元素条件RDF和液体扩散系数的模拟稳定性和恢复情况。

LiPS是一种与电池开发相关的晶态超离子锂导体,也是MD模拟用于研究材料动力学性质的代表性体系。

研究者采用Batzner等人2022年的数据集,对所有模型的力误差、稳定性、RDF恢复和锂离子扩散系数进行了基准测试。

图3:不同力的稳定性比较

研究总结 写在最后

研究者引入了一组不同的MD模拟任务,并对SOTA ML FF进行了全面的比较,以揭示ML用于MD模拟的新见解。

正如实验中所显示的,仅仅对力误差进行基准测试是不够的,应该使用基于仿真的度量来反映模型的实际效用。

研究者展示了现有训练方案/模型失败的案例研究,以更好地理解其局限性,并强调模拟稳定性的重要性。同时,实验也表明,模型的性能可以高度依赖于案例。

对于更具挑战性的MD系统,可能需要更有表现力的原子表示。新的数据集和基准在ML MD模拟未来工作中发挥了重要作用。ML推进MD模拟的可能性并不局限于机器学习力场。

增强采样方法实现了稀有事件的快速采样,并且已经被ML技术所增强。研究者希望他们的数据集和基准将鼓励未来在所有相关方面的发展,以推动MD模拟的ML前沿。

重磅!麻省理工团队再论机器学习力场!相关推荐

  1. AI如何帮助我们理解意识——麻省理工最新大脑研究

    来源:ScienceAI 编辑:文龙 麻省理工学院和麻省总医院的一组研究人员最近发表了一项将社会意识与单个神经元活动联系起来的研究.据悉,这是首次在单神经元级别下找到「心智理论」的证据. 测量大量的神 ...

  2. 为什么清华、北大、麻省理工硕博士,都要逐步推导机器学习算法?

    你认为,学人工智能最难的是什么? 没有资料?没有方法?没有答疑?还是无法坚持? 研究表明,80%放弃了的人,是因为在学习的路上碰到太多阻碍. 看看下面的6条,哪一条戳中了你 1.不知道从何学起,没人能 ...

  3. 【RPA之家转载】智能RPA平台Ikigai获1300万美元种子轮融资,初创团队来自麻省理工

    RPA之家(RPA之家|RPA|RPA新闻|RPA案例|RPA应用|RPA咨询|RPA培训|RPA认证|RPA教程)是中国具有影响力的RPA垂直交流社区,社区汇聚了RPA领域的各类从业人员.其中包括R ...

  4. 2021 MIT || 麻省理工机器学习导论(二)RNN LSTMs循环神经网络

    2021 MIT || 麻省理工机器学习导论(二) YOUTube:MIT 6.S191: Introduction to Deep Learning(要梯子,可以去B站上找找,好像也有) 这些是我在 ...

  5. 权威发布:《麻省理工科技评论》2020年“全球十大突破性技术”

    权威发布:<麻省理工科技评论>2020年"全球十大突破性技术" 今天,<麻省理工科技评论>一年一度的"十大突破性技术"(TR10)榜单如 ...

  6. 麻省理工MIT大神解说数学体系;2012年计算机博士港中大林达华简历(公号回复“MIT林达华”下载彩标PDF论文)

    麻省理工MIT大神解说数学体系:2012年计算机博士港中大林达华简历(公号回复"MIT林达华"下载彩标PDF论文) 原创: 林达华 数据简化DataSimp 今天 数据简化Data ...

  7. 报名丨麻省理工科技评论全球新兴科技峰会(北京)

    由麻省理工科技评论在全球举办了超过 18 年的 EmTech 新兴科技峰会即将落地中国. 谷歌.亚马逊.高通.英伟达.IBM.ARM.D-Wave.麻省理工学院.宾夕法尼亚大学.阿里巴巴.腾讯.科大讯 ...

  8. 《麻省理工科技评论》独家起底OpenAI:背离马斯克创立初衷,理想主义被盈利压力碾碎

    尽管成立只有短短四年时间,OpenAI 已经成为世界领先的 AI 研究实验室之一,在 AI 研究领域与谷歌人工智能实验室.DeepMind.微软研究院.艾伦人工智能研究所相媲美. 而且,因其由埃隆 · ...

  9. 《麻省理工科技评论》、度小满联合发布《2023年金融科技趋势展望》

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 2023金融科技行业有哪些值得关注的前沿技术?1月5日,北大光华度小满金融科技实验室联合<麻省理工科技评论>中国研究团队发布了& ...

最新文章

  1. python编程单词排序_python 统计单词个数,并按个数与字母排序
  2. linux ftp 命令集合
  3. 操作系统级虚拟化概述
  4. Oracle 检索数据
  5. 开源是项“全民工程”,揭秘开源团队的管理运作
  6. OpenGL渲染水water
  7. 益生菌可能导致的“菌血症”与死亡(调研手稿六)
  8. 用Emacs进行Java开发
  9. [html] 页面刷新时sessionStroage会变(会清空)吗?
  10. secureCRT中文字符乱码
  11. Android Studio的怪错:AndroidManifest.xml unresolve symbol package/connot resolve symbol/Animations
  12. EViews9.0程序安装及注意事项
  13. 这一份Spring源码解析PDF,阿里架构师直言:全网最深度解析!
  14. Vm虚拟机Deepin安装教程---kalrry
  15. python——获取矩形四个角点的坐标
  16. 如何装配一台计算机和安装操作系统,组装机怎么安装系统?手把手教你组装机安装系统教程...
  17. 嵌入式经典面试题总结
  18. ListContainer教程
  19. 三,mergetool和difftool
  20. matlab计算器设计流程图_基于MATLAB计算器设计与开发

热门文章

  1. QNET-网络测试工具
  2. 多因子选选股MATLAB代码,金工研报:利用卷积神经网络进行多因子选股
  3. 基于微信小程序的大学食堂管理和评价系统
  4. 性能度量 - 对学习器泛化能力的评估
  5. 一加5 android o,一加5T迎Oxygen OS 5.0公测版更新:基于全新Android O (8.0) 打造
  6. SpringBoot向Mysql中插入数据报错:org.springframework.dao.InvalidDataAccessResourceUsageException: error perfo
  7. 那些年踩过的坑——服务器中文路径
  8. xmlns:XML命名空间
  9. 华三交换机的用户权限设置
  10. 基于RBF神经网络的信用分类方法