今天给大家介绍的是麻省理工学院(MIT)材料科学与工程系研究人员近期发表在arXiv上的一篇有关大分子表示的研究。作者提出一种大分子的图表示方法,为大分子的表示、比较和学习提供了一个通用框架;并实现了定量的化学信息决策和大分子化学空间的迭代设计。

介绍

生物大分子构成了生命的基础,是生存和生长的强大动力。单个大分子是由单体,用于连接的键及空间排列组合而成。研究人员通过改变单体,键和拓扑结构(线性和非线性,如支链形,星形和瓶刷形)探索了广阔的化学空间。与用于表示小分子的SMILES类似,大分子可以用线性表示法表示。但如蛋白质和DNA/RNA的线性生物大分子例外,它们通常用单个或三个字母的单体编码的序列表示。但这些方式常常受到其化学空间的覆盖范围以及支持所有拓扑结构的能力的限制,并且常常要根据单体的不同而重新设计表示方式。

近年来,有许多利用序列比对,编辑距离,线性核和深度学习方法计算大分子相似性的工作,但这些方法仅限于生物大分子,不能扩展到一般的大分子化学空间,并且现有的用于生物大分子的工具不允许掺入非天然单体,除了聚糖特异性工具之外,也不能处理非线性拓扑结构。

这项工作中,作者提出了一种用于表示大分子的图表示方法,使用带有Tanimoto化学相似性矩阵和传播图核(propagation graph kernels)的图编辑距离(graph edit distances,GEDs)来计算图相似性。此外,还针对不同的任务训练了一套图神经网络模型,在聚糖数据集上取得了最好的结果。

模型

作者使用通用文本文件格式将大分子结构转换为机器可读格式。文本文件包含3个部分-SMILES,MONOMERS和BONDS。然后将大分子解析成带有节点和边属性的NetworkX图,使用立体化学扩展连通性指纹对单体和键分子进行特征化。这种表示方式使大分子在其原生状态下的立体化学和拓扑的明确功能化的描述成为可能,并提供了一个单一的框架来表示天然和合成、线性和非线性大分子。

图1 大分子的图表示

利用这种独特的表示方式,作者使用精确的GED评分与Tanimoto相似性替换矩阵,以及图核,来计算2个或多个大分子图之间的相似性(图1B)。GED通过分配节点和边替换的分数来计算两个图之间的相似度。并且使用Tanimoto相似度矩阵代替基于进化统计的替换矩阵,计算分子指纹之间的相似度(图2A,B)。为了解决计算GED成本高的问题,作者使用传播属性核来获得大型数据集的相似度矩阵。此外,作者还分析了聚糖数据集的相似性向量。在GraKeL中实现的传播属性核用于计算相似度(图2C)。该核为大分子图提供了绝佳的选择,因为它们捕获了本地节点信息并沿边缘迭代地传播了这些信息。以这种方式,核捕获了大分子的局部单体化学和整体拓扑。

图2 聚糖具有广泛的化学相似性

作者提出降维更多地受分类学分类的影响,而不是免疫原性的影响。在图2D中,作者按域着色绘制,可以观察到域的排列与进化过程相似,从中心的细菌开始,然后是真核生物,然后在边缘出现病毒,可以看出,免疫原性是属于特定结构域的聚糖的结果,例如细菌具有免疫原性。

实验

作者针对指纹,one-hot节点和边属性训练了5种GNN模型架构,以针对免疫原性和8个分类标准对聚糖进行分类。对于每个任务,作者评估了分类指标,该分类指标通过对至少具有5个随机初始化种子的前5个超参数集重新训练的模型进行平均化获得(表1)。实验表明,该模型获得了最好的结果,并且表现优于文献报道的指标。

表1 在测试数据集上获得最佳模型属性组合的度量

总结

大分子图表示与分子指纹、图相似性和GNN相结合,提供了一个表示、计算相似性和机器学习大分子的框架。这项工作为大分子的计算研究提供了一种化学方法。在不久的将来,作者将在包括蛋白质和DNA / RNA在内的各种大分子数据集上验证该模型的适用性。

参考资料

Mohapatra S, An J, Gómez-Bombarelli R. Chemistry-informed Macromolecule Graph Representation for Similarity Computation and Supervised Learning[J]. arXiv preprint arXiv:2103.02565, 2021.

https://arxiv.org/abs/2103.02565

arXiv | 图表示方法驱动大分子计算研究相关推荐

  1. 如何使用matlab拟合示功图,应用Matlab对柴油机示功图修正方法的研究

    文章编号 :1009 - 3486(2003) 03 - 0027 - 04 应用 Matlab 对柴油机示功图修正方法的研究 Ξ 常汉宝 , 王艳武 , 安士杰 (海军工程大学 动力工程学院 , 湖 ...

  2. java技术路线思维导图_开题报告中的研究方法及技术路线指的啥?

    研究方法,就是你研究这个论文所使用的方法,比如你引用了一个案例,那这就叫做个案法,比如说你调查了一个问卷,这就用了调查法,比如说你去实际勘察,然后询问了别人,这就叫做访谈法,比如说你很多数据都是计算出 ...

  3. 融合聚类信息的技术主题图可视化方法研究

    摘要 [目的] 弥补主题聚类后单一色彩技术主题图可视化辨识度有限,增强聚类后技术主题图的表现力,丰富科技情报分析人员的技术主题图可视化方法和软件工具选择范围.[方法] 提出融合聚类信息的技术主题图可视 ...

  4. 基于html5的矢量图绘制方法研究,基于HTML5Canvas技术的在线图像处理方法的研究...

    摘要: 本文主要对基于HTML5Canvas技术的在线图像处理方法进行探讨和研究. 随着网页技术的飞速发展,在线的应用程序越来越受到用户的欢迎,很多业余摄影爱好者开始采用在线的图像处理软件来对照片进行 ...

  5. Paper:《Graph Neural Networks: A Review of Methods and Applications—图神经网络:方法与应用综述》翻译与解读

    Paper:<Graph Neural Networks: A Review of Methods and Applications-图神经网络:方法与应用综述>翻译与解读 目录 < ...

  6. 2022图神经网络5篇最新的研究综述:双曲/图分类/联邦/等变/异质性

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 转载于"深度学习与图网络" 近年来,深度学习领域关于图神经网络(G ...

  7. 从数据结构到算法:图网络方法初探

    如果说 2019 年机器学习领域什么方向最火,那么必然有图神经网络的一席之地.其实早在很多年前,图神经网络就以图嵌入.图表示学习.网络嵌入等别名呈现出来,其实所有的这些方法本质上都是作用在图上的机器学 ...

  8. pagerank数据集_从数据结构到算法:图网络方法初探

    机器之心原创 作者:朱梓豪编辑:Qing Lin 如果说 2019 年机器学习领域什么方向最火,那么必然有图神经网络的一席之地.其实早在很多年前,图神经网络就以图嵌入.图表示学习.网络嵌入等别名呈现出 ...

  9. 亮风台提出用完全可训练的图匹配方法,优于最新SOTA | CVPR 2020

    出品 | AI科技大本营(ID:rgznai100) 6月14日-19日,CVPR 2020在线上举行,据了解,本届大会共收到6656篇投稿,接收论文1470篇,录用率约22%,低于ICCV 2019 ...

最新文章

  1. SAP采购订单税码增强检查
  2. 如果我要...(??版)
  3. boost::hana::detail::unpack_flatten用法的测试程序
  4. leetcode127. 单词接龙(bfs)
  5. java 搜索起始位置,从Java中的给定位置搜索字符
  6. iTunes怎么下载
  7. [C++]头文件(Header Files)和命名空间(Namespace)
  8. html事件绑定的方法,如何获取html元素所绑定的事件
  9. 关于项目404解决方法:前提条件:项目路径都是正确的
  10. 利用阿里云提供的镜像快速更换本地的yum源
  11. 小代码编写神器:LINQPad 使用入门
  12. 利用hexo搭建一个只属于你自己的博客
  13. 数据表中的数据生成节点数
  14. postman电脑版无法安装_Postman系列一:Postman安装及使用过程中遇到的问题
  15. HTML5期末大作业:动漫人物介绍网站设计——哆啦A梦(5页) HTML+CSS+JavaScript 学生动漫网页设计模板下载 哆啦A大学生HTML网页制作作品 简单漫画网页设计成品
  16. 机器学习——sklearn实现决策树(隐形眼镜预测和鸢尾花分类)
  17. 网关和路由器的区别?
  18. 计算某一点绕另一点旋转一定角度后的坐标
  19. 豆瓣top250图书爬取
  20. outlook移动ost邮箱数据到D盘

热门文章

  1. Java基础篇:IO流
  2. 使用git将本地项目工程推送到码云上
  3. 水平越权访问与垂直越权访问漏洞
  4. 简洁好用的数据库表结构文档生成工具!
  5. 阿里技术专家:为什么说失败的微服务架构,大多死在分布式事务?
  6. Java双刃剑之Unsafe类详解
  7. 一文探讨堆外内存的监控与回收
  8. 人民日报点名批评互联网社区团购,各种“买菜”软件要黄?程序员们:感觉白加班了!...
  9. Intellij IDEA必备插件,提高效率的“七种武器”!
  10. 你知道Java文件拷贝有几种方式么?