今天给大家介绍2019年12月发表在Nature Machine Intelligence的论文“Prediction of drug combination effects with a minimal set of experiments”,该工作由芬兰分子医学研究所(FIMM)的研究者完成。本研究建立机器学习模型,通过极少量的实验就可以对药物组合效应进行预测,因此能显著降低药物组合的筛选成本。

1、研究背景

药物组合疗法已成为一些复杂疾病的标准治疗方法,与单一药物治疗相比,联合用药可以提高治疗效果同时降低毒副作用。高通量筛选(HTS)使得在临床前的模型系统中分析成千上万种药物组合的表型效应成为可能。但是,由于大量潜在的药物和剂量组合,大规模的多剂量矩阵分析筛选实验成本过于昂贵,这超出了大多数学术实验室的能力。

为了使高通量药物组合筛选在实际项目中更加可行,一种解决剂量或药物组合爆炸问题的方案是仅使用多剂量反应矩阵的一部分数据进行预测。FIMM研究团队提出一种高效的机器学习方法DECREASE(药物组合反应预测),使用最少的实验对药物组合协同效应进行预测。DECREASE的模型输入为剂量矩阵的单行单列或对角线,检测其离群值,然后使用新型复合非负矩阵分解(cNMF)算法和正则化增强回归树(XGBoost)算法预测完全剂量反应矩阵,最后使用选定的参考模型(例如Loewe,Bliss,HAS或ZIP)来计算药物组合的总协同作用评分,通过进一步的实验或临床验证确定最具协同作用的组合。DECREASE的实现示意图如图1所示。

图1 DECREASE实现示意图

2、方法

2.1 内部组合实验

在13个癌细胞系中测试了34种不同的化合物,总共包括210种抗癌组合。用192种抗癌药物组合在10个乳腺癌细胞系中进行了8*8矩阵实验来建立DECREASE模型。另外18种用于验证模型预测的抗癌组合也使用相同的方法在HEK293(胚胎肾)、HeLa(宫颈癌)和Hep G2(肝细胞癌)细胞系中进行8*8的矩阵实验。所有的细胞系都在更大的体积中生长,使用基于PCR的检测试剂盒制备实验用细胞并将其冷冻在安瓿中,并定期检测支原体。

2.2 公布的组合数据集

第一个公布的数据集是在ABC DLBCL系TMD8中做了466个6*6矩阵实验来检测466种抗癌化合物与依鲁替尼的联合作用。第二个公布的数据集包括29种不同化合物中的104种抗疟组合,在恶性疟原虫株HB3的10*10矩阵设计中进行了测试。第三个公布的抗癌数据集来自于奥尼尔和其他科学家的研究,总共包括22,737个实验,583个成对组合,使用4*4剂量方案对从ATCC或Sigma-Aldrich获得的39个不同癌细胞系进行测试。第四个公布的数据集包含78种抗病毒药物组合,在感染了马科纳病毒和埃博拉病毒的Huh7肝细胞中进行了测试。

2.3 DECREASE工作流程

DECREASE预测方法主要由两阶段构成:(1)对有限的测量实验设计(如固定浓度或对角设计)获得的稀疏矩阵进行离群值检测;(2)使用cNMF算法预测完全剂量反应矩阵。最后,通过任意一种协同模型识别最好的协同药物组合。

1

离群值检测

g*12(d1,d2) = g1(d1) + g2(d2) − g1(d1)g2(d2)                 (1)

计算测量和预期的组合响应之间的偏差的公式如下:

gd(d1,d2) = |g12(d1,d2) − g*12(d1,d2)|                 (2)

其中g12(d1,d2)是实验测量的组合效应。然后,gd(d1,d2)中的离群点X(d1,d2)被定义为以下观测值:(1)低于Q1 − 4 × IQR或高于Q3 + 4 × IQR,Q1和Q3分别是第一和第三个四分位数,IQR是四分位数之间的范围;(2)偏离测量的抑制水平超过25%。

由于剂量反应矩阵中的药物组合抑制反应通常是浓度水平的非单调函数,在任何浓度范围内都可能发生药物协同或拮抗作用,因此,基于标准分布的方法都不适用于离群值的检测。这也使发现两个位置接近的离群值变得复杂,因为它们可能与协同区或拮抗区混淆。为了检测用于模型训练的组合和单个药物反应测量中的离群值,我们应用了一种基于Bliss近似的新策略。计算单一药剂在d1和d2浓度下的预期组合反应的公式如下:

g*12(d1,d2) = g1(d1) + g2(d2) − g1(d1)g2(d2)                 (1)

计算测量和预期的组合响应之间的偏差的公式如下:

gd(d1,d2) = |g12(d1,d2) − g*12(d1,d2)|                 (2)

其中g12(d1,d2)是实验测量的组合效应。然后,gd(d1,d2)中的离群点X(d1,d2)被定义为以下观测值:(1)低于Q1 − 4 × IQR或高于Q3 + 4 × IQR,Q1和Q3分别是第一和第三个四分位数,IQR是四分位数之间的范围;(2)偏离测量的抑制水平超过25%。

2

完全矩阵预测

在去除离群值后,预测稀疏剂量反应矩阵中的缺失反应。由于反应值总是非负的(抑制范围在0%到100%之间),所以使用约束加权非负矩阵因式分解(NMF)来预测药物组合反应矩阵。约束的NMF增加了额外的正则化约束,以减少过度拟合,增强模型估计解的唯一性。

3

协同评分和检测

利用预测的完全剂量反应矩阵,使用选定的协同评分参考模型计算全浓度范围内的组合形势。药物对的总体协同作用评分是通过使用SynergyFinder的剂量效应组合矩阵计算预测和预期协同作用之间的平均得分。正负分数分别表示协同作用和拮抗作用。

4

比较评价

使用192种抗癌组合的内部数据集,比较了cNMF和7种最先进的监督机器学习算法在预测稀疏剂量反应矩阵缺失值方面的预测准确性。对比分析表明,cNMF的性能优于其他所有监督机器学习算法。

2.3 统计分析

使用Bliss、Loewe、HSA或ZIP模型,通过计算预测和预期协同作用得分之间的Pearson相关系数,评估协同作用检测的预测准确性。用r.m.s.e.评估剂量组合模式的预测准确性。

3、结果

3.1 使用DECREASE预测抗癌药物的协同作用

DECREASE基于已批准的药物和正在研究的化合物的192种抗癌药物组合在10个乳腺癌细胞系中进行了8*8剂量反应矩阵的测试。图2展示了使用不同浓度设计预测得到的模型的协同作用分数的皮尔逊相关系数。对比分析表明,采用新型的cNMF方法,结合广泛使用的正则化增强回归树(XGBoost)算法,可以获得最佳的预测精度。

图2 DECREASE通过高通量实验数据筛选设计,准确预测药物组合效应

3.2 预测剂量组合表面的准确性

DECREASE模型的主要目的是预测被测药物对之间的协同效应。此外,还研究了通过DECREASE预测的完全剂量反应矩阵在不同浓度水平(所谓的结合面,combination surface)上捕获组合剂量反应模式的准确性。根据DECREASE模型预测出的Bliss协同面与基于完全剂量响应组合矩阵计算出的Bliss协同面相似,如图3所示。

图3 DECREASE精确预测了固定浓度的药物组合景观

3.3 被测子矩阵对DECREASE精度的影响

通过各种实验设计找出哪些剂量反应矩阵的浓度才能获得最大的预测性能,可以了解它们为协同预测提供了多少信息。当选择剂量反应矩阵的中间行之一进行模型训练时,预测效果最好,如图4a所示。值得注意的是,添加剂量反应矩阵的其他浓度行并没有显著提高协同预测性能,如图4b所示。

图4 选择和使用剂量反应矩阵行预测药物联合效应

3.4 DECREASE应用于非癌症药物组合数据

为了说明DECREASE模型在非癌症组合筛选的广泛适用性和性能,使用已发表的包含104种抗疟药物组合的数据集在恶性疟原虫HB3株中进行了测试。DECREASE在使用固定浓度和对角线设计时可以确定最具协同和拮抗作用的药物组合。在另一个非癌症应用案例中,DECREASE在78种用于埃博拉治疗的药物组合中筛选出最有效的协同抗病毒组合,与DLBCL和疟疾的应用类似,使用DECREASE模型对药物组合效应具有很高的预测准确性。实验结果如图5所示。

图5 DECREASE能准确预测抗疟疾药物和抗病毒药物的组合效应

4、讨论

为了降低高通量药物组合实验所需的成本和时间,本文提出了一种高效的基于机器学习模型的方法--DECREASE,仅用最少的一组测量值来预测最有效的药物协同组合。本文使用53个癌细胞系中测试的23595种成对药物组合,以及在疟疾和埃博拉感染模型中测试的药物组合来证明使用机器学习方法能够获得与完全剂量组合矩阵所提供的几乎相同的信息含量。实验结果还表明,DECREASE有助于加快原发性患者样本中的药物组合试验,并可以广泛适用于各种生物医学问题。

本文目前工作重点为成对药物组合效应预测,在未来的研究中,一旦有足够的高阶剂量反应张量数据可用于预测,将会使用DECREASE模型预测高阶药物组合效应。未来另一个研究方向是评估用于临床应用的药物组合的潜在毒副作用。

Data availability

http://decrease.fimm.fi/data_availability

https://github.com/IanevskiAleksandr/DECREASE/tree/master/210_Novel_Anticancer_combinations

Code availability

http://decrease.fimm.fi/source_code

https://github.com/IanevskiAleksandr/DECREASE

参考资料

Ianevski, A., Giri, A.K., Gautam, P. et al. Prediction of drug combination effects with a minimal set of experiments. Nat Mach Intell 1, 568–577 (2019) doi:10.1038/s42256-019-0122-4

Nat. Mach. Intell.| 机器学习显著降低药物组合筛选成本相关推荐

  1. Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

    今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章.在文中,作者提出了一种从大规模文献库中自动提取生物医学关系 ...

  2. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  3. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  4. Nat. Mach. Intell. | 深度神经网络中的捷径学习

    今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章"S ...

  5. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

  6. Nat. Mach. Intell. | 华科同济医学院剑桥联手推出新冠预测模型!

    今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章.文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患 ...

  7. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  8. Nat. Mach. Intell.|从局部解释到全局理解的树模型

    今天介绍美国华盛顿大学保罗·艾伦计算机科学与工程学院的Su-In Lee团队在nature mechine intelligence 2020的论文,该论文提出了一种基于博弈论沙普利值的TreeExp ...

  9. Nat. Mach. Intell. | 基于深度学习预测DNA甲基化位点

    研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制.该论文2020年8月3日发表在"Nature Machine Intelligence"上. 研究人员通过 ...

最新文章

  1. 研发效能改进的实践方法
  2. FSWD_1_BasicHtmlCss
  3. 企业中的混乱:如何对云计算具有信心
  4. Windows XP Service Pack 3 RC2 简体中文版发布
  5. c语言ascii图形输出,C语言实例10——有关ASCII图形的输出
  6. Oracle:ORA-01789: 查询块具有不正确的结果列数 分析原因和解决办法
  7. 训练的神经网络不工作?一文带你跨过这37个坑
  8. Java基础中按值传递和引用传递详解
  9. 论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习
  10. 第二周linux微职位
  11. 使用Visual Studio对项目重命名
  12. asp oracle数据库开发 adodb,asp怎么连接oracle数据库
  13. js异步之setTimeout与setInterval
  14. 轻松玩转windows7之一:利用无线玩转虚拟网络
  15. 基于SSM的企业人事管理系统(Spring+SpringMVC+Mybatis)
  16. Oracle12c创建可插入式数据库pdb和连接pdb并创建用户心得
  17. 小白教程系列——C盘满了,将C盘扩容
  18. 【牛客网】C/C++牛客网专项刷题(04)
  19. 游戏的现实规则和非现实规则
  20. C语言读取指定文件夹下面的所有文件

热门文章

  1. 关于form标题提交的应用技巧(-)
  2. 敏捷软件开发实践——估算与计划(01)
  3. 存储架构|Bitcask 引擎的设计,秒!
  4. 漫画:据说很多搞软件的羡慕硬件工程师
  5. 互联网公司的那些搞笑gif
  6. 花了3个月整理的超级全面的Python资料和Java面试题,分享给大家!
  7. 360数据处理平台的架构演进及优化实践
  8. 拜托别在问我 MySQL 性能优化了!
  9. 系列文章|OKR与敏捷(三):赋予团队自主权
  10. 国产scrum敏捷开发工具- leangoo领歌