来源:ScienceAI
本文约2500字,建议阅读5分钟在预训练期间,Geneformer 获得了对网络动力学的基本理解,以完全自我监督的方式在模型的注意力权重中编码网络层次结构。

映射基因网络需要大量的转录组数据来了解基因之间的联系,这阻碍了在数据有限的环境中的发现,包括罕见疾病和影响临床无法接近的组织的疾病。

此外,迁移学习通过利用在大规模通用数据集上预训练的深度学习模型,可以对特定任务数据有限的大量下游任务进行微调,从而彻底改变了自然语言理解和计算机视觉等领域。

丹娜-法伯癌症研究所(Dana-Farber Cancer Institute)以及博德研究所(Broad Institute of MIT and Harvard)的研究人员开发了一个上下文感知、基于注意力的深度学习模型 Geneformer,该模型在约 3000 万个单细胞转录组的大规模语料库上进行了预训练,可以在网络生物学数据有限的情况下实现上下文特定的预测。

在预训练期间,Geneformer 获得了对网络动力学的基本理解,以完全自我监督的方式在模型的注意力权重中编码网络层次结构。

该研究以「Transfer learning enables predictions in network biology」为题,于 2023 年 5 月 31 日发布在《Nature》。

许多基因在激活时会引发一系列分子活动,从而触发其他基因提高或降低其活动。这些基因中有的反过来又会影响其他基因——或者反过来阻止第一个基因。因此,当科学家勾画出几十个相关基因之间的联系时,生成的网络图通常看起来像一张纠结的蜘蛛网。

如果仅以这种方式映射出少数基因是混乱的,那么试图了解人类基因组中所有 20,000 个基因之间的联系将是一项艰巨的挑战。但是,如此庞大的网络图谱可以让研究人员深入了解整个基因网络如何随疾病发生变化,以及如何逆转这些变化。

「如果一种药物靶向网络外围的基因,它可能会对细胞的功能产生很小的影响,或者只能控制疾病的症状。」论文第一作者 Christina Theodoris 说,「但通过恢复在网络中发挥核心作用的基因的正常水平,你可以治疗潜在的疾病过程并产生更大的影响。」

人工智能「迁移学习」

通常,为了绘制基因网络图,研究人员依赖于包含许多相似细胞的庞大数据集。他们使用人工智能系统的一个子集,称为机器学习平台,来计算数据中的模式。

然而,生物学中的标准机器学习模型经过训练只能完成一项任务。为了让模型完成不同的任务,它们必须从头开始重新训练新数据。问题是对于某些疾病,没有足够的现有数据来训练这些机器学习模型。

迁移学习的概念通过利用在大规模通用数据集上预训练的深度学习模型,彻底改变了自然语言理解和计算机视觉等领域,这些模型可以针对大量下游任务进行微调,这些任务的特定数据有限,单独使用时不足以产生有意义的预测。

自注意机制的出现通过生成上下文感知模型进一步改变了深度学习领域,这些模型能够关注大的输入空间,并学习在每个上下文中哪些元素最重要。基因调控网络架构高度依赖于上下文,而基于注意力的模型(称为 transformers)可能特别适合网络动态的特定上下文建模。

丹娜-法伯癌症研究所以及博德研究所的研究人员开发了一个上下文感知、基于注意力的深度学习模型 Geneformer,它在大规模转录组数据上进行了预训练,从而在数据有限的情况下进行预测。

「Geneformer 可以在许多生物学领域应用,包括发现可能的疾病药物靶点。」Theodoris 说,「这种方法将极大地提高我们在因有限数据阻碍进展的疾病中设计基因网络校正疗法的能力。」

图示:Geneformer 架构和迁移学习策略。(来源:论文)

研究人员组装了一个大型预训练语料库 Genecorpus-30M,其中包含 2990 万个来自公开数据的广泛组织的人类单细胞转录组。然后,他们使用自我监督的屏蔽学习目标在该语料库上对 Geneformer 进行了预训练,从而获得对网络动态的基本理解。经过预训练的 Geneformer 通过上下文感知的缺失计算方法,准确预测了剂量敏感的疾病基因及其下游目标。

此外,即使仅显示极少数相关数据示例,Geneformer 也能够做出准确的预测。

「这意味着 Geneformer 可用于对研究进展缓慢的疾病进行预测,因为我们无法获得足够大的数据集,例如罕见疾病和影响临床难以取样的组织的疾病。」Theodoris 说。

应用于心脏病

研究人员将 Geneformer 应用于心肌病的疾病建模,预测了候选治疗靶点,其实验抑制显著改善了基于诱导多能干细胞(iPSC)的疾病模型中的心肌细胞收缩。

「该模型预测了我们已经知道的对心脏病非常重要的基因,这一事实让我们更加相信它能够做出准确的预测。」Theodoris 说。

Geneformer 发现的其他潜在重要基因之前并未发现与心脏病相关,例如 TEAD4 基因。当研究人员在实验室中从心肌细胞中去除 TEAD4 时,这些细胞不再能够像健康细胞一样有力地搏动。

因此,Geneformer 利用迁移学习得出了一个新的结论:即使没有提供任何关于缺乏 TEAD4 的细胞的信息,它也正确地预测了 TEAD4 在心肌细胞功能中发挥的重要作用。

最后,该团队要求 Geneformer 预测应该针对哪些基因使患病的心肌细胞在基因网络水平上与健康细胞相似。当研究人员在受心肌病(一种心肌疾病)影响的细胞中测试两个提议的靶标时,他们确实发现使用 CRISPR 基因编辑技术去除预测的基因可以恢复患病心肌细胞的搏动能力。

「在了解正常基因网络是什么样子和患病基因网络是什么样子的过程中,Geneformer 能够弄清楚可以针对哪些特征在健康和患病状态之间进行切换。」Theodoris 说,「迁移学习方法使我们能够克服有限患者数据的挑战,以有效地识别可能的蛋白质,从而在患病细胞中进行药物靶向。」

「使用 Geneformer 的一个好处是能够预测哪些基因可以帮助细胞在健康和疾病状态之间切换。」该研究的主要参与者 Patrick Ellinor 说,「我们能够在 Broad Institute 实验室的心肌细胞中验证这些预测。」

研究人员计划扩大 Geneformer 分析的细胞数量和类型,从而不断提高其分析基因网络的能力。他们还将该模型开源,以便其他科学家可以使用它。

「使用标准方法,你必须为每个新应用程序从头开始重新训练模型。」Theodoris 说,「我们的方法真正令人兴奋的是,现在可以转移 Geneformer 关于基因网络的基础知识来回答许多生物学问题,我们期待看到其他人用它做什么。」

论文链接:

https://www.nature.com/articles/s41586-023-06139-9

相关报道:

https://www.nature.com/articles/d41586-023-01504-0

https://medicalxpress.com/news/2023-05-artificial-intelligence-consequences-gene-modifications.html

编辑:文婧

Nature | 数据有限也能预测药物靶点,开源模型Geneformer显著改善基因网络校正疗法...相关推荐

  1. DTI-CDF:一种基于混合特征预测药物靶点相互作用的级联深层森林模型

    1. 摘要     药物靶标相互作用(DTIs)在靶向药物的发现和开发中起着至关重要的作用.DTIs的计算预测可以有效地补充湿实验室技术对DTIs的识别.然而,现有的DTI预测方法存在精度低.假阳性率 ...

  2. 带有社区检测算法的多标签学习方法预测药物靶点相互作用(DTI-MLCD)

    1. 摘要     确定药物-靶标相互作用(DTIs)是药物发现和药物重新定位的重要步骤.为了大大降低实验成本,蓬勃发展的机器学习被应用到这个领域,并发展了许多计算方法,特别是二分类方法.然而,目前的 ...

  3. Nature Reviews | 2019年新发现的药物靶点

    2019年美国,欧盟和日本批准的新药中,出现了不少新的靶点,新墨西哥大学医学院的Tudor Oprea教授在Nature Reviews Drug Discovery上介绍了这些新出现的靶点. 有四个 ...

  4. 【图神经网络GNN 药物----靶点预测】DTI-HETA:基于GCN和GAT在异构图上预测药物-靶点相互作用

    天行健,君子以自强不息.

  5. 酶抑制剂靶点预测:药物靶点评估/药效团筛选定制

    酶抑制剂靶点预测:药物靶点评估/药效团筛选定制 药物靶点评估 药物靶点通常是在代谢或信号通路中与特定疾病或病理状态有关的关键分子.通过绑定到特定活动区域抑制这个关键分子进行药物设计.多靶点药物发现途径 ...

  6. 交通系统速度预测综述:从车辆到交通【公共交通数据集】【开源模型整理】

    交通系统速度预测综述:从车辆到交通[公共交通数据集][开源模型整理] 分享这篇综述,希望对大家有帮助.如有错误,请多指正! Zewei Zhou, Ziru Yang, Yuanjian Zhang, ...

  7. 基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

    本文介绍一篇来自浙江大学侯廷军教授课题组.中南大学曹东升教授课题组.浙江大学贺诗波教授课题组和腾讯量子实验室联合发表在Nature Communications的一篇文章. 基于知识图谱和推荐系统的统 ...

  8. Nat. Biotechnol. | 利用深度学习从基因转录数据中预测药物疗效

    作者 | 蒋长志 审稿 | 蒋立坤 今天给大家介绍来自北京大学医学部的谢正伟团队发表在Nature Biotechnology上的文章,文章提出了一种基于深度学习的药效预测系统(DLEPS),该系统将 ...

  9. 使用自监督图像表示学习框架精确预测分子性质和药物靶点(Accurate prediction of molecular properties and drug targets using a sel)

    Accurate prediction of molecular properties and drug targets using a self-supervised image represent ...

最新文章

  1. 【 FPGA 】组合逻辑中的竞争与险象问题(四)
  2. python的for循环语句_干货丨Python的循环语句基础讲解!
  3. Qt 关于定时器实用的总结
  4. 洛谷 - P3899 [湖南集训]谈笑风生(dfs序+主席树/二维数点)
  5. myabatis oracle 调用存储过程返回list结果集
  6. mysql数据库整体备份和恢复_MySQL 数据库的备份和恢复
  7. linux终端机详解,Linux reset设定终端机的状态命令详解
  8. ❤️六W字《计算机基础知识》(五)(建议收藏)❤️
  9. SELinux系列(六)——SELinux安全上下文查看方法 详细介绍
  10. Linux虚拟存储系统
  11. java数据结构——抽象数据类型
  12. SoapUI接口测试——添加断言(检查点)——Assertion
  13. wk一sm5时间温度控制器_吓人!用“御寒神器”取暖,竟上了手术台……注意!温度不高也会烫伤...
  14. App Store Connect新手指导
  15. 将网页保存为图片--修改
  16. storm风暴英雄 tempo_迎接《风暴英雄》世界锦标赛季中大乱斗
  17. 【算法】958- 动图演示:彻底理解红黑树?
  18. NFT 推荐|辛迪加黑市系列第一弹
  19. javascript添加addClass()方法
  20. 修改服务器时间和时区

热门文章

  1. 网络加密算法之置换与替代算法
  2. 【计算机问题】:火狐浏览器不能下载东西
  3. 《Archi银行集团:结合BIAN参考模型、ArchiMate®建模符号和 TOGAF®框架》中文版官网正式发布
  4. Classic AUTOSAR概述与目标
  5. Laya Sprite
  6. 微信小程序 TypeError: _typeof3 is not a function
  7. pmap学习:系统测试中怎么确定内存泄露(memory leak)
  8. 树莓派与双色Led模块的那些事儿
  9. web图像优化 (1)
  10. 苹果手机描述文件服务器地址是什么,苹果手机设置里面有个描述文件是什么意思...