今天给大家介绍的是拜耳作物科学公司、拜耳公司机器学习研发部和遗传毒理学部于2020年1月联合发表在Nature Communications上的一篇论文,这篇文章通过一种生成模型进行分子的从头设计以及合成优化。该生成模型利用转录组学数据进行训练,这样可高概率地自动生成所需转录组谱的分子,在只提供所需状态的基因表达标记而无需对任何训练的化合物进行提前靶标注释的情况下,该模型就能自动为所需靶标设计类似活性的分子,并且得到了与活性化合物更相似的分子,这为药物研发提供了一种新的方法。

1

背景

药物研发是一个漫长而又艰难的过程,其困难在于理论上可能存在的1060个类药物分子中只有一小部分可以用于治疗,所以在药物发现过程中面临的挑战之一是苗头化合物(Hit)的识别。苗头化合物是指对特定靶标或作用环节具有初步活性的化合物,这一阶段决定了整个药物发现过程的起点。苗头化合物可能是天然配体,也可能是从文献、专利或者分子的结构信息中选取的分子。但对于新型靶标或者孤立靶标这种没有先前的信息可利用的分子,之前的方法例如使用组合库或者高通量筛选(HTS)费时费力,效率不高。后来随着计算机的发展,出现了基于计算方法或数据驱动的方式来辅助苗头化合物的识别,一类是从包含大量分子的虚拟筛选库的虚拟筛选技术,通常这种方法是利用分子的相似性或者分子对接技术(molecular docking),一类是利用逆QSAR、粒子群优化或者遗传算法等自动生成具有特定性质的新分子,但总体来说这些方法效果也不是特别好。而在如今的人工智能时代,深度生成模型的出现使得药物分子的生成得以很好的解决。生成模型能够从特定训练样本学习到样本的属性,然后自动生成具有类似特征的新实体,所以其广泛应用于分子设计、组合优化和苗头化合物的发现,但是现有的分子生成模型几乎都忽略了配体与靶标的相互作用,针对该问题,作者提出了一种将条件GAN网络和WGAN-GP(带梯度惩罚的WGAN)网络结合在一起的生成模型,该生成模型将系统生物学和分子设计联系在一起,在仅使用靶标基因敲除的基因表达特征即可生成活性分子,使得该模型可在无先验知识的情况下生成类苗头化合物,并且是多功能的,在同一模型下可为几种靶标或生物状态下设计分子。

2

模型

首先作者利用Grammar VAE模型将分子的SMILES序列编码到一个隐空间,随后可以将其解码为重建原始SMILES序列所需的语法生成规则集。其次,为了得到更高清晰度的合成数据,作者使用StackGAN,核心思想就是搭建两个生成器(generator),主要采用一种逐步递进的思想,将分子生成分为两个阶段来操作,利用第二阶段来改进第一阶段生成的结构,两个阶段的区别在于第二阶段的输入数据不使用随机生成的向量,而是第一阶段生成的结果。整个模型的图示结构如下:

两个阶段使用的具体GAN网络是将条件GAN网络和WGAN-GP网络结合,利用条件GAN的原因是引入基因表达特征,将其作为条件c,而WGAN-GP是在WGAN上提出的改进模型,WGAN在处理Lipschitz限制条件时直接采用了weight clipping,而处理Lipschitz条件时直接把weight限制住也带来了一些问题,例如导致很容易一不小心就梯度消失或者梯度爆炸。在两者模型结合下第一阶段的判别器和生成器的损失函数如下:

其中,x是分子表示,c是作为条件的基因表达特征,它们都是从真实数据分布preal中采样,而第一阶段的输入数据z满足高斯分布,函数f0是衡量与分子表示相对应的基因表达特征的概率,是正则化的系数,前者是平衡了梯度惩罚项对判别器损失的影响,后者是对f0进行加权,根据经验将两者设置为10.第二阶段的判别器和生成器的损失函数与第一阶段的区别在之前已经说明,具体形式如下:

3

实验

从化合物诱导的基因表达中生成分子

结果是每个特征产生约8.5%的有效分子,大约8.2%是独有的SMILES表示形式,只有约1.6%是易合成的,而且StackGAN的第二阶段生成的分子数并没有比第一阶段多。另外,在分子生成中,参考化合物和训练集的基因表达谱会有很大的欧几里得距离,这样会导致和参考化合物的相似性降低。(仅为一部分,其余请参考原文)

设计类抑制剂分子

下图显示了几个靶标各自产生的分子及其最接近的已知活性分子的示例。(仅为一部分,其余请参考原文)

从上图可以看到在许多情况下,所产生的分子与活性分子共享官能团,甚至具有相似的分子长序列片段。从这些例子中可以看出,进行基因敲除后靶标的基因表达特征能够将分子的生成引向与活性分子相关的化学空间的特定区域。

优化长序列片段(scaffolds)

下图是实验中根据特定靶点优化的一些分子示例,通过使用AKT1,EGFR,ERG和TP53的基因敲除后的基因表达优化苯环而生成的分子,并且在圆圈外显示了和它们的活性最相关和最邻近的分子。

相似性搜索和本模型的对比

用于化学空间的特定区域

4

总结

作者提出了一种基于条件生成对抗网络的方法,该方法从特定的基因表达特征中生成了新的分子,由于不依赖靶标注释和活性数据使得它在诸如靶标脱孤中无法获得此类信息的情况下非常有用。但该方法仍有改进的空间,例如,评估是否可以将其应用于先导化合物的优化或寻找产生具有与特定药物靶标活性相关的已知结构特征的化合物的方法。作者也正计划扩展此方法,以自动生成具有多目标特征或能够逆转毒理学相关或疾病相关基因表达特征的分子。

参考资料

Méndez-Lucio, O., Baillif, B., Clevert, D. et al. De novo generation of hit-like molecules from gene expression signatures using artificial intelligence. Nat Commun 11, 10 (2020). https://doi.org/10.1038/s41467-019-13807-w

代码:可联系相关作者获取。

参考资料

Nat. Commun. | 条件GAN网络和基因表达特征用于类苗头化合物的发现相关推荐

  1. Nat. Commun. | 多层生物分子网络的鲁棒性研究

    今天给大家介绍华中科技大学人工智能与自动化学院Xueming Liu课题组.哈佛医学院Joseph Loscalzo团队和伦斯勒理工学院Jianxi Gao课题组合作发表在 Nature Commun ...

  2. Nat Commun | 利用机器学习准确分析FFPE样本的基因组学特征,解锁临床癌症样本的遗传密码...

    导读 目前,世界各地的病理实验室对患者标本大多进行常规的福尔马林固定和石蜡包埋(Formalin Fixation and Paraffin Embedding, FFPE)处理.FFPE保留了组织形 ...

  3. Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

    本文介绍由加拿大麦吉尔大学与蒙特利尔高等商学院.北京大学.复旦大学的研究人员联合发表在Nature Communications的研究成果:本文作者提出了单细胞嵌入式主题模型scETM(single- ...

  4. Nat. Commun. | msiPL:质谱数据分析的新工具

    今天给大家介绍来自哈佛医学院.麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表 ...

  5. Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

    本文介绍由同济大学控制科学与工程系的洪奕光和中国科学院数学与系统科学研究院的万林共同通讯发表在 Nature Communications 的研究成果:单细胞数据集成可以提供细胞的全面分子视图.然而, ...

  6. Nat.Commun.|使用基于注意力机制的多标签神经网络预测并解释12种RNA修饰

    今天介绍来自西交利物浦大学和福建医科大学的Zitao Song, Daiyun Huang等人六月份发表在Nature Communication的文章"Attention-based mu ...

  7. Nat.Commun. | DeepAccNet:基于深度学习的准确性估计改善蛋白质结构优化

    今天给大家介绍的是华盛顿大学蛋白质设计研究所所长,著名的蛋白质设计天才科学家David Baker课题组发表在Nature Communications上的一项工作.在这项工作中,作者提出了一个深度学 ...

  8. NIPS 2018论文解读 | 基于条件对抗网络的领域自适应方法

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. Nat Commun|单细胞ATAC-seq深度学习工具包AtacWorks,简单、高效且适用

    染色质转座酶可及性测序技术(ATAC-seq)可利用Tn5转座酶直接测量染色质可及性,已被广泛应用于鉴定转录因子对染色质的影响,构建细胞调控网络以及定位潜在的不同发育和疾病相关的表观遗传变化.最近,单 ...

最新文章

  1. MS12-042 用户态调度机制特权提升漏洞
  2. Luogu P5244 [USACO2019Feb Platinum] Mowing Mischief (动态规划、决策单调性)
  3. 加密数据包--加解密部分逆向跟踪
  4. google js cdn_「效率工具」模拟CDN的浏览器扩展程序,改善在线隐私
  5. windows平台下载编译好的webrtc代码vs2015
  6. 拼多多上线“医药健康日” 将对最常用的OTC药品等进行补贴
  7. 大学计算机老师说未来不需要程序员,都是机器自动生成代码。老师说估计20年,程序员就会被取代,现实吗?
  8. PostgreSQL在何处处理 sql查询之二
  9. 文本属性之文本缩进(CSS、HTML)
  10. 【DP】LeetCode 85. Maximal Rectangle
  11. SQL分类,DDL,DML,DCL
  12. 2021国内地址数据库表mysql
  13. intptr_t 和 uintptr_t类型使用总结
  14. 磁珠特性以及选型注意事项
  15. uniapp跳转外部链接
  16. onedrive电脑手机不同步_关于OneDrive,移动端同步以及显示不及时的问题。
  17. ARM920T内存管理单元MMU
  18. scpjsv3模组链接_我的世界scpv3模组
  19. 5G时代IDC数据中心经历变革,分布式云存储服务器将独占鳌头
  20. 【1047】删除字符串中的所有相邻重复项

热门文章

  1. 服务器租用之服务器带宽情况分析
  2. “评IDC,送免费主机”活动,主机无任何限制,无广告
  3. 设置Socket缓冲区
  4. 滴滴CEO程维:当初把产品拿给美团王兴看,他说了两个字“垃圾”!
  5. 架构思维:系统容量设计
  6. 34岁,外企倒闭成功上岸大厂,50K,附面试秘籍
  7. 搞透Kafka的存储架构,看这篇就够了
  8. 关于多线程中抛异常的这个面试题我再说最后一次!
  9. 面试官:谈谈JWT鉴权的应用场景及使用建议?
  10. 绩效管理误区和乱象,你的企业存在吗?