本篇推文引自:Advanced machine-learning techniques in drug discovery

1. 摘要:

    机器学习(ML)在药物发现中的持续增长,产生了令人印象深刻的结果。随着它们的使用增加,它们的局限性也变得越来越明显。这些局限性包括它们对大数据的需求、数据的稀缺性以及缺乏可解释性。也很明显的是,这些技术并不是真正自主的,即使在部署后也需要再训练。在这篇综述中,我们详细介绍了如何使用先进技术来规避这些挑战,并举例说明了药物发现和相关学科。此外,我们提出了新兴技术及其在药物发现中的潜在作用。本文提出的技术有望扩大ML在药物发现中的适用性。

2. 介绍

    ML在药物发现领域的应用持续增长,促进了众多途径的研究。ML的成功体现在越来越多的制药公司,其中ML是其商业模式的核心(表1)。此外,ML也被大型制药公司用于药物发现。这样的成功证明了ML对于药物发现的必要性和实用性,也明确表明药物发现将与ML紧密联系在一起。其目标是减少药物发现的资源浪费和消除对动物实验的需要。

    ML的成功在于它能够在复杂和大量数据集中识别模式。此外,ML技术(MLT)可以使用常见的编程语言开发,包括Python和R,大多数研究人员都可以访问这些语言。此外,还有一些第三方软件为不熟悉编码的研究人员提供了访问ML技术的途径,例如苹果的Create ML。尽管它们很简单,但第三方软件的能力有限。

    传统的MLT在药物发现方面已经得到了深入的探索。这些技术包括有监督和无监督MLT,包括k近邻(kNN)、决策树、随机森林、支持向量机(SVM)、人工神经网络(ANN)、主成分分析(PCA)和k-means。与传统的预测算法相比,它们的吸引力在于其简单、计算简单、预测精度更高。同样,传统技术的潜在机制也可以被非计算机科学家研究人员认知地理解。例如,对于kNN,用户只需要控制一个参数,即k值,而k值决定了基于多数投票的分类搜索空间。另一个例子是支持向量机(SVM),它使用超平面结合支持向量来描绘类别,以最大化不同类别之间的距离。支持向量机受益于使用核技巧,它允许数据的非线性映射,这已被广泛用于非线性数据集。该技术也可用于PCA(核PCA;kPCA)。最近的一项研究发现,kPCA可用于改进线性模型的分类,与非线性模型的性能相当且速度很快。


    尽管传统的MLT简单,但也有其缺点。kNN遭受维数诅咒,在高维空间的预测性能开始减弱。同样,当维数大于样本大小时,SVM的性能开始下降。增加随机森林中树木的数量可以提高预测精度,但大量的树木结果会产生一种对实时监控效率低下的算法。然而,对MLT的主要批评有两点,一是他们对大数据的需求,二是缺乏透明度。考虑到数据收集可能具有挑战性、昂贵和耗时,解决这些限制是必需的。此外,透明度可以促进用户对发现过程的理解,并将他们对ML理解过程的依赖降到最低。传统MLT的另一个局限性是缺乏自主性。例如,监督学习需要标记目标变量(即,要预测的变量)。此外,一旦部署,例如作为基于web的软件,它将需要后期生产维护,特别是随着数据集的发展。为了解决这些限制,研究团体采用了新技术,并取得了有希望的结果。预计这些先进技术将进一步扩大ML的应用,最终目标是在药物发现中实现人工智能(AI)。人工智能是计算机科学中寻求使用机器创造人类智能的一个广泛分支,ML是实现这一目标的核心。近年来,ML的一个子集——深度学习(deep learning),作为一种能够从大数据中获得高精度的技术,同时能够处理结构化和非结构化数据。

    如前所述,ML在药物发现方面继续增长。这种增长伴随着适当的评论,讨论传统MLT和深度学习的基本原理和应用。最近还对自然语言处理进行了综述,这是一个在药物发现中受到关注的领域。在这里,我们关注的是尚未得到足够重视的先进技术,尽管这些技术具有很强的发展潜力。我们优先考虑在药物发现中使用的例子。综述的技术包括强化学习、迁移学习和多任务学习。Lo等人在其广受欢迎的关于药物发现的ML的综述中指出,具有更高可见性的技术以及防止过拟合的方法值得进一步发展。我们通过描述贝叶斯神经网络(BNN)和可解释的算法来解决他们的评论。混合量子推荐系统的出现也是我们研究的重点。

2. 先进的机器学习技术

    对MTLs的一些批评包括需要大数据集和人为干预。从这些评论,先进的技术进行了研究,以解决传统的MLT的缺点,从而进一步扩大其适用性。这些先进的技术包括强化学习(RL),它弥补了与自主学习技术之间的差距;迁移学习和多任务学习,用于在缺乏大数据的情况下开发预测模型。在这里,我们提供了这些先进技术的概述,并举例说明了它们在药物发现中的应用。这些技术的总结见表2。

4. 强化学习:

    RL是ML的一个令人振奋的子类,在学术界和工业界都引起了兴趣。它从上世纪50年代就开始流行了,当RL模型在一场与职业人类对手的围棋比赛中获胜时,它的流行又重新开始了,在这场比赛中,以前没有任何算法能够实现这一非凡的成就。Go游戏是世界上最古老的连续游戏之一,被用作AI的基准,因为游戏中可能的配置数量被认为是250150。这远远超过了人体中蛋白质的数量和宇宙中质子的数量。

    RL与有监督和无监督学习的区别在于,它是一种自主的持续学习形式。这是因为RL算法产生判断,而大多数有监督和无监督算法进行预测。RL对动态环境的快速响应能力正是它被用于游戏、机器人和金融行业交易的原因。事实上,与监督学习相比,RL在某些应用中的表现优于分类任务,但RL在最少人为干扰的情况下持续学习的能力才是理想的。

    RL的概念从动物的奖赏机制中得到启发。在RL中,系统没有给出期望策略的示例。相反,RL通过接收来自其环境的强化信号,从经验上学习要采取的最佳决策。RL的主要组成部分是代理、环境、状态、目标和奖励功能。通过与环境交互来训练代理,环境可以有多种状态(即场景)。代理将为给定的状态选择一个操作,并将获得正面或负面(即惩罚)奖励。代理将继续为每个不同的状态采取行动,同时希望增加其获得的累计奖励。奖励是一个数学公式,由用户根据特定目标定义。以游戏为例,代理的目标或策略是赢得游戏,赢得游戏时将获得+1,输掉游戏时将获得-1。在金融交易的情况下,目标可以是利润最大化,因此,代理人将因采取一系列导致利润最大化的行动而获得奖励。

    当代RL主要集中在从头分子设计或分子优化。Popova等人对药物的从头设计进行了一项结合了这两个方面的值得注意的研究(图1a)。通过这种方法,RL结合了两种深度学习技术。其中一种技术是生成模型,它起到推动者的作用,生成表面上化学上可行的分子。另一种技术,预测模型,充当了批评家的角色,它对每一个生成的分子奖励或惩罚生成模型。利用这种方法,研究人员利用CheMBL21数据库中的150万个结构,根据它们的SMILES字符串来训练生成模型。结果表明,合成了100万个化合物,其中95%的化合物通过ChemAxon的结构检查器被证实是可行的。此外,他们发现在一个单独的数据库(锌)中存在32000个从头生成的结构分子。这项研究进一步证明,通过深度RL可以获得优化的新化合物,以获得理想的物理性质、化学复杂性或生物活性。虽然研究表明RL可以被用来生成新的化合物,但是还需要进一步的工作来完善这个模型。例如,采用的策略可能无法保证药物特异性化合物。此外,这项研究使用了SMILES,尽管SMILES是一种简单而优雅的化合物表示,但在生成模型中的使用也引起了一些问题。

    在另一项研究中,Zhavoronkov等人开发了一个特定化合物的从头模型:DDR1激酶抑制剂(图1b)。他们的目的是证明RL对快速鉴定有效化合物的有效性,从而证明RL可以解决药物开发的重要障碍,即缓慢开发阶段和药物选择性。在短短的46天里,作者们就能够设计、合成和完成invitro和invovo测试。然而,其中一种生成的化合物既类似于用于训练模型的化合物,也类似于现有的上市药物。因此,尽管成功地证明了RL如何加速药物发现过程,但未来的模型仍需要编码,以使新生成的化合物与输入数据和现有上市化合物不同。尽管在药学领域,RL的应用仅限于药物设计,但更广泛的医学界已经探索了该算法的其他潜力。在向个性化剂量迈进的一步中,一些基于模拟的研究探索了使用RL来提供脓毒症治疗的动态决策,麻醉药物输送控制,以及糖尿病视网膜病变的检测。RL的使用也扩展到了组学、生物成像和医学研究。RL的血管学表现如图2a所示。



内容详见:http://bbit.vip/service/main.php?version=1&type=article&id=175

生物信息学|药物发现中的机器学习技术(1)相关推荐

  1. 生物信息学|药物发现中的机器学习技术(2)

    本篇推文引自:Advanced machine-learning techniques in drug discovery 1. 迁移学习     如果数据量比较少,那么有一些技术可以用来规避这个问题 ...

  2. 技术动态 | GML如何做药物发现?奥尔胡斯大学最新《知识增强图机器学习在药物发现中的应用》综述...

    转载公众号 | 专知 将人工智能(AI)融入药物发现领域已经成为一个日益增长的跨学科科学研究领域.然而,传统的人工智能模型在处理复杂的生物医学结构(如2D或3D蛋白质和分子结构)和为输出提供解释方面存 ...

  3. 论文解读+代码复现【AIDD】贝叶斯、决策树、随机森林+2种机器学习模型在癌症治疗药物发现中的应用

    AIDD(AI Drug Discovery & Design):是近年来非常火热的技术应用,且已经介入到新药设计到研发的大部分环节当中,为新药发现与开发带来了极大的助力.倾向于机器对数据库信 ...

  4. JMC | 药物发现中的迁移学习

    导读 药物发现工作中可用于训练计算模型的数据集通常很少.标记数据的稀疏可用性是人工智能辅助药物发现的主要障碍.解决该问题的一种方法是开发可以处理相对异构和稀缺数据的算法.迁移学习是一种机器学习方法,可 ...

  5. JMC | 人工智能在药物发现中的应用:走进广阔的天地

    JMC推出 "Artificial Intelligence in Drug Discovery "特刊,强调人工智能(AI)在制药研究中的新兴作用.本期的一个焦点是阐明人工智能方 ...

  6. BenevolentAI:药物发现中的人工智能

    文章来源:ATYUN AI平台 什么是人工智能和机器学习? 人工智能(AI)和机器学习(ML)的子领域,研究使机器巧妙地执行智能任务的过程和实用性,而无需明确地为这些任务编程.最近,AI系统在几个任务 ...

  7. 全球人工智能(AI)在药物发现中的应用市场--行业趋势和2029年预测

    全球人工智能(Artificial Intelligence, AI)在药物发现中的应用,按应用(候选新药.药物优化和再利用.临床前试验和批准.药物监测.寻找新的疾病相关靶标和通路.了解疾病机制.聚集 ...

  8. ai人工智能_药物发现中的人工智能

    ai人工智能 'What Drug should I make next?' and 'How can I make it? "我接下来应该制造什么药物?" 和"我该怎么 ...

  9. 学术速运|在药物发现中的钉合螺旋肽高通量筛选

    ​题目:High-Throughput Screening of Stapled Helical Peptides in Drug Discovery 文献来源: : https://doi.org/ ...

最新文章

  1. Python五种实用的小技巧
  2. 福利 | 16场精选活动干货、精华笔记、课件分享:数据派独家讲座干货大合集
  3. eclipse 设置PythonIDE
  4. 基于easyui开发Web版Activiti流程定制器详解(二)——文件列表
  5. 没有修改出现mysql密码错误_MySql 修改密码后的错误快速解决方法
  6. python3 生成器_python3基础之生成器
  7. Keras-Sequential模型(1)
  8. Unity中Web.Config文件的配置与调用
  9. 快轮天才发明家刘峰,上榜福布斯2017年亚洲人物
  10. 黑客第二课:脱屌第一步 —— Vim Fundamentals
  11. Java Applet及其应用
  12. Java反射专题笔记
  13. cs224w(图机器学习)2021冬季课程学习笔记14 Reasoning over Knowledge Graphs
  14. 新浪实时股票数据接口http://hq.sinajs.cn/list=code
  15. 生活不可能像你想象的那么好,但也不会像你想象的那么糟。 ——莫泊桑《羊脂球》
  16. 哪些App适合用HTML5开发?
  17. 2020年有寓意的领证日期_2020年领证的好日子-2020有寓意的领证日期【蜜匠婚礼】...
  18. 办公软件excel表格_国产表格神器:超脱excel,画表只是基本功能,做软件才是真本事...
  19. ArcGIS 图层上点的编辑
  20. 项目屡屡破发,平台币遭遇价格腰斩:IEO的转折点已经到来

热门文章

  1. WiFi QC 自动测试:ixChariot API初探
  2. 阶乘分之一java_阶乘公式等于e的n次方
  3. SparkSql 项目实战 | 各区域热门商品Top3
  4. 英文版编程入门教程推荐(C#/C++/C/Java/Python/Swift等)
  5. 基于 librdkafka C API 的三种seek随机访问方法
  6. Grade for Android 之一:Groovy概述
  7. 中断解读以及中断服务函数
  8. 三菱FX3U与2台台达温控器modbus通讯案例
  9. Linux命令管道工作原理与使用方法
  10. 2021年维修电工证(高级)考试题库 职业技能鉴定职业资格