编译 | 杨慧丹

审稿 | 赵宸

本文介绍一篇来自哥伦比亚大学Yufeng Shen的研究团队最近发表在Nature Machine intelligence期刊上的一项研究。作者提出了一种基于图注意力神经网络的新方法来预测错义突变的致病性,即基于图的错义突变致病性预测器(graphical missense variant pathogenicity predictor , gMVP)。作者证明了gMVP可以改善对临床检测和基因研究中错义突变的理解。

研究背景与内容

错义突变是导致癌症遗传风险和发育障碍的主要因素,用于许多临床遗传诊断。然而,大多数罕见错义突变可能是良性的或只有极小的功能效应,临床遗传检测中报道的大多数罕见错义突变也意义不明确,导致模糊、混乱、过度治疗和错过临床干预时机。在人类基因研究中,人们利用罕见突变来识别新的风险基因,基于计算预选出具有破坏性的错义突变是提高其统计能力的必要步骤。因此,计算方法对于解释临床遗传学和疾病基因发现研究中的错义突变至关重要。

已有一些研究证明,错义突变的功能效应与三维蛋白质结构相关,汇集三维结构信息可以改善对功能效应的预测。该论文所提出的gMVP模型主要组成部分是一个图,具有捕获氨基酸预测特征的节点和协同进化强度加权的边,能够有效地汇集来自局部蛋白质上下文和功能相关的远端位置的信息。作者通过有监督学习与精心策划的致病性突变数据对模型进行训练与测试,研究证明了gMVP在识别TP53、PTEN、BRCA1和MSH2中的破坏性突变方面优于其他已发表的方法。此外,它实现了对神经发育障碍病例中de novo错义突变与对照组病例的最佳分离。最后,模型还支持通过迁移学习来优化对钠通道和钙通道的功能增益(gain-of-function,GOF)和功能损失(loss-of-function,LOF)预测。

研究方法

图1. gMVP模型概览

错义突变的功能效应取决于氨基酸替代的类型和蛋白质上下文。gMVP使用一个图来表示一个突变体及其蛋白质的上下文(上下文定义为128种侧翼氨基酸)。目标氨基酸是中心节点(橙色),侧翼氨基酸是上下文节点(绿色),所有上下文节点与中心节点相连,但彼此不相连。图中节点特征描述其序列保守性和局部结构性质,边的权重使用协同进化强度,可以有效汇集在远端但功能相关位置上的保守性和编码约束性信息。

作者使用一个图注意力神经网络来学习蛋白质序列和结构上下文的表示。其包括三个深度为1的密集层来将三个输入特征(中心节点x、上下文节点{ni}和边的特征向量{fi})分别编码为潜在表示向量h, {ti}和{ei},一个多头注意层来学习上下文的注意力权重(tanh(W[h, ti, ei])),然后得到上下文向量c。最后将向量c和h输入一个与softmax层相连接的递归神经层进行分类并生成预测得分。

研究结果

作者精心策划了人类群体中的致病性突变和随机的罕见错义突变数据来训练gMVP,并使用完全不同方法整理或收集的数据集来对模型性能进行基准测试。作者选择的是以0.75的阈值来代表下游分析的二分类预测,它可以最好地划分positives和negatives的得分分布。

图2.gMVP与其他方法的测试性能评估

作者从数据库(HGMD,ClinVar and UniProt)中收集可能的致病性和良性错义突变分别作为positives和negatives训练,DiscovEHR中观察到的罕见错义突变作为额外的negatives训练。鉴于使用与训练数据同一来源随机划分的测试数据容易导致夸大性能,作者汇集了那些不太可能与训练数据共享相同系统错误的癌症体细胞突变用于测试。将其中为推断热点的错义突变作为positives,从DiscovEHR数据中随机选择的罕见突变作为negatives,这两种条件下gMVP得分的分布存在不同的模式(图2)。另外,与其他已发表的方法相比,gMVP的性能最好,其AUROC值为0.88,其次是REVEL为0.86。

图3.gMVP和其他方法在识别已知疾病基因破坏性突变上的性能评估

作者还评估了gMVP和其他方法在预测同一基因中的破坏性突变和中性突变的能力。对4个已知的疾病风险基因TP53(540 positives,1108 negatives)、PTEN(262 positives,1632 negatives)、BRCA1(432 positives,1476 negatives)和MSH2(414 positives,5439 negatives)的深度突变进行扫描分析,所获得的功能性读出数据作为基本事实,这四个基因的所有变异数据都不在模型训练集之内。依据图3中precision-recall曲线图对比,结果证明了gMVP具有最好的预测效果。

图4.gMVP和其他方法在区分致病性与中性突变,以及预测离子通道基因中的GOF和LOF突变的性能评估

通过迁移学习,经过训练的gMVP模型可以针对遗传研究中更具体的任务进行进一步优化。作者尝试了通过迁移学习来对突变的作用模式进行具体分类(GOF和LOF)。从10个电压-门控钠离子通道和10个钙离子通道基因中获取1517个致病性突变和2328个中性突变。他们基于原始gMVP模型的权重重新训练了一个新的模型gMVP-TL1用于区分LOF/GOF(positives)和中性突变(negatives)。结果显示优于原来的gMVP和其他已发表的方法。作者同时也训练了gMVP-TL2,旨在具体区分LOF和GOF。结果显示gMVP-TL2也明显优于funNCion的性能(如图4)。这表明由迁移学习技术辅助的gMVP模型可以在非常有限的训练数据集下,准确地分类预测通道基因中的LOF和GOF。

总结

作者开发了gMVP——一种基于图注意神经网络的新方法来预测可导致功能性破坏的错义突变。它使用图注意神经网络来学习蛋白质序列和结构上下文的表示,能够在协同进化引导下有效地汇集三维空间中功能相关或潜在接近的远端氨基酸位置的预测信息。研究证明了gMVP方法在临床基因检测和新风险基因发现中具有实用性。最后,作者还针对模型分析总结了一些未来可以改进的方面:将人类群体中随机观察到的罕见突变数据加入模型训练;将Transformer组件和蛋白质三维结构整合到模型中;使用规模更大更多样化的人口基因组数据。

参考资料

Zhang, H., Xu, M.S., Fan, X. et al. Predicting functional effect of missense variants using graph attention neural networks. Nat Mach Intell 4, 1017–1028 (2022).

https://doi.org/10.1038/s42256-022-00561-w

代码

https://github.com/ShenLab/gMVP/

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

Nat.Mach.Intell.|如何改进错义突变致病性预测?使用图注意神经网络试试相关推荐

  1. Nat. Mach. Intell. | 快速的蛋白质结构从头预测

    今天给大家介绍一篇Nature Machine Intelligence期刊的论文"AmoebaContact and GDFold as a pipeline for rapid de n ...

  2. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  3. Nat. Mach. Intell. | 基于深度学习预测DNA甲基化位点

    研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制.该论文2020年8月3日发表在"Nature Machine Intelligence"上. 研究人员通过 ...

  4. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  5. Nat. Mach. Intell.|从局部解释到全局理解的树模型

    今天介绍美国华盛顿大学保罗·艾伦计算机科学与工程学院的Su-In Lee团队在nature mechine intelligence 2020的论文,该论文提出了一种基于博弈论沙普利值的TreeExp ...

  6. Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

    今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...

  7. Nat.Mach.Intell.| DEcode:深度学习解读差异基因表达原理

    今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章"Deep learning decodes the princi ...

  8. Nat. Mach. Intell. | 华科同济医学院剑桥联手推出新冠预测模型!

    今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章.文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患 ...

  9. Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

    今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章.在文中,作者提出了一种从大规模文献库中自动提取生物医学关系 ...

最新文章

  1. elgamal java_ElGamal - 源码下载|系统编程|加密解密|源代码 - 源码中国
  2. 剑指offer有python版吗_剑指Offer算法类题目[Python版]
  3. Using jQuery to add a dynamic “Back To Top” floating button with smooth scroll
  4. 需要多快的速度,才能在抽走桌布之后保持桌面物体不掉?
  5. css动画-模拟正余弦曲线
  6. android p安装教程,Android SDK的安装教程
  7. Java JPA学习与使用小记
  8. Linux格式化硬盘为nvme0n1,安装ubuntu16.04系统及解决/dev/nvme0n1p7:clean...block黑屏问题...
  9. 如何将像素坐标转化为机械臂基座坐标_机械臂抓取自动精准标定
  10. 如何判断一家公司靠不靠谱?
  11. Django【跨域】
  12. 无交换机实现集群网络互联
  13. ecshop源码分析:会话类cls_session
  14. 图像拼接算法总结(一)
  15. CS5218 DP转HDMI 4K30HZ转换方案
  16. 常用显卡驱动下载合集
  17. Oracle-高效分页
  18. 高项、高级项目管理师论文-风险管理
  19. 全球云服务商对比:阿里云,太贵了
  20. 通信模块——虚拟号码

热门文章

  1. 数据结构 — 图 之 关键路径、关键活动 (文字表述)
  2. 视觉里程计4(SLAM十四讲ch7)-ICP
  3. 哈工大计算机学院统一复试划线,哈工大计算机专业,复试比例101%,擦线党没戏了...
  4. 牛客OR36 .链表的回文结构
  5. CSS教程--CSS字体
  6. 必备模块知识——继电器
  7. R语言实现简单的网页数据抓取
  8. 【Git常用】之回滚
  9. 9 循环神经网络——具有记忆功能的网络(2)
  10. 正则表达式:检测密码由6-21字母和数字组成