论文地址:Predicting drug response of tumors from integrated genomic profiles by deep neural networks

利用深度神经网络预测整合基因组谱的肿瘤药物反应

作者信息:

Yu-Chiao Chiu1, Hung-I Harry Chen1,2, Tinghe Zhang2, Songyao Zhang2,3, Aparna Gorthi1, Li-Ju Wang1, Yufei Huang2,4§, Yidong Chen1,4§
1德克萨斯大学健康科学中心格里希儿童癌症研究所

2德克萨斯大学圣安东尼奥分校电气和计算机工程系

3西北工业大学自动化学院信息融合技术实验室

4德克萨斯大学健康科学中心流行病学和生物统计学系

论文信息:

在美国加利福尼亚州洛杉矶举行的智能生物学和医学国际会议(ICIBM 2018)上以及BMC Genomics增刊上发表。

研究背景:

由于肿瘤的异质性,准确预测药物反应和鉴定新型抗癌药物仍是一项具有挑战性的任务。

由于患者的药物反应数据难以获得,大规模的基于细胞系的筛查可以极大地促进癌症药物基因组学的研究。但由于体内和体外生物系统的根本差异,将从细胞中获得的药物基因组学特征转化为肿瘤药物反应的预测仍需要继续研究。

本文旨在基于基因组谱预测肿瘤对抗癌药物的反应。作者设计了一个深度神经网络(DNN)模型,利用肿瘤基因组图谱(TCGA)的大量肿瘤样本,从高维突变和表达谱中了解遗传背景。利用GDSC中的药物基因组学数据对模型进一步训练,最终再次应用于TCGA数据,预测肿瘤的药物反应。

研究方法:

数据源:

CCLE: 935个细胞系的基因表达数据E^CCLE

UCSC TumorMap :11,078个TCGA泛癌肿瘤数据E^TCGA

作者将基因表达数据表示为log以2为底(每百万个基因的转录本数+1),对于突变数据,考虑了四种类型的非同义突变,包括错义和无义突变、移码插入和删除。有突变赋值为1,野生型赋值为0。

GDSC:990个细胞系对265种抗癌药物应答数据。

对GDSC中缺失的数据使用R包VIM和laeken,通过5种最接近的药物的IC50值加权平均值进行推算。

本研究分析了25种组织类型的622个包含有效表达、突变和IC50数据的细胞系和33种肿瘤类型的9059个包含表达谱和突变谱的肿瘤。经过数据预处理后,对CCLE和TCGA样本中的18,281个突变基因和15,363个表达基因数据进行分析。

DNN模型概述

提出的DNN模型用于根据细胞或肿瘤的基因组特征预测IC50值。

输入为样本c的突变和表达向量对。输出为一个长度为D的代表IC50值的向量 。

该模型由三个网络组成:突变编码器(Menc),表达编码器(Eenc),预测网络(P)。

前两部分是使用TCGA数据的突变数据和表达数据(n=9059)进行预训练的自编码器,用于将突变和表达数据的高维特征学习为低维表示。将低维表示连接到P中,使用CCLE数据(n = 622,分别使用80%、10%和10%的样本作为训练、验证和测试集)对整个模型(三部分)进行训练,预测265种药物的IC50值。

DNN设置计算环境

本研究中的DNN训练使用Keras 1.2.2。网络各层均为全连接层。

优化器为Adam,损失函数为均方误差(MSE)。

P的输出层使用线性激活函数,其它层的激活函数设为ReLU。输出为对数尺度IC50值。

神经网络模型示意图

预训练突变和表达编码器

Autoencoder是一种无监督的DL模型,包括一对非对称的编码器和解码器。通过最小化输入数据和重构数据之间的损失减少数据的维数,并在瓶颈层捕获关键特征。

为了确定优化结构,作者采用超参数优化方法hyperas,选取:

(1)第一层神经元数量(4096、2048或1024)

(2)第二层神经元数量(512、256或128)

(3)第三层神经元数量(瓶颈层;64、32或16)

(4)批大小(128或64)。

每个组合训练了20个epochs,表现最好的模型重复运行100次。

最终模型神经元数:Menc (18281-1024-256-64) Eenc (15363-1024-256-64)

完整的预测网络

在完整模型中,两个自编码器与P相连,预测IC50值。P是一个五层前馈神经网络, 第一层合并两个编码器的输出神经元,三个全连接层和输出层。使用均匀分布对预测网络(P)进行初始化,突变编码器(Menc)和表达编码器(Eenc)通过对TCGA数据进行预训练得到的参数进行初始化。当验证集中的损失连续3个epoch停止下降时,停止训练,以避免模型过拟合。

使用测试集进行模型评估。并使用最终的模型来预测TCGA肿瘤的药物反应。IC50预测值高表明患者对相应药物有不良反应。

与其他模型的比较

将与线性回归、支持向量机和四种不同的DNN进行了性能比较。

首先,为了评估TCGA预处理对Menc和Eenc的影响,使用均匀分布对两个编码器进行随机初始化,并计算整个模型的MSE。

其次,将Menc和Eenc网络的降维问题替换为主成分分析(PCA),将Menc和Eenc替换为突变和表达数据的前64个主成分。

最后两个模型仅包含Menc或Eenc,研究它们是否提高了性能。

在每次迭代中,CCLE样本随机分为训练组(80%)、验证组(10%)和测试组(10%) 。根据消耗的epochs数量和IC50的MSE,比较了100次迭代的性能。

对于多变量线性回归和正则化支持向量机,融合突变和基因表达的前64个主成分,预测所有(使用线性回归) 或单个药物(SVM)的IC50值。

实验结果:

(A) CCLE的真实(包含缺失值)、推算和预测的IC50值和TCGA的预测数据的密度图。原始数据的两种模式有所增强。

(B)计算和预测CCLE IC50值的热图。预测IC50的分布与原始数据相似。

(C,D)CCLE样本IC50预测值与估算值之间的Pearson和Spearman相关性。

性能比较

作者共进行了100次训练,每次都重新选择了训练、验证和测试单元。总的来说,模型在14.0个epoch内收敛(标准差为3.5), 测试样本MSE为1.96 ,训练/验证集中为1.48。

两种经典方法在测试样本的MSE值较高。本文的模型相对于随机初始化和PCA结果更优且稳定(测试样本中MSE的标准差分别为0.13、1.21和0.17)。Eenc-only的性能与本文模型相似, Menc的加入似乎带来更快的收敛速度。这与生物学先验知识相符,即基因表达与生物功能的联系更直接,信息含量比突变更丰富。

TCGA - per-cancer研究中,基因突变药物反应预测关系

为了在肿瘤中寻找有效的肿瘤抗癌药物,作者将构建的模型直接应用于预测9059个TCGA样本对265种抗癌药物的反应。预测的IC50值与CCLE细胞分布相似。

因为细胞系和肿瘤有不同的性质,作者首先检查了几种具有知名靶基因的药物。雌激素受体阳性的乳腺癌对它莫西芬的反应优于雌激素受体阴性患者。阿法替尼和吉非替尼, 在EGFR突变的非小细胞肺癌中实现更好的性能。这些结果显示了模型对肿瘤的适用性,但预测的IC50水平差异的幅度不大,表明了细胞系和肿瘤之间的差异。

作者分析了所有癌症-突变-药物组合,并测试了每一种癌症有突变和没有突变的样本之间IC50的显著性差异。设定Bonferroni校正t检验P < 1.0×10-5,共确定了4453种癌症-突变-药物组合,涉及256种药和169个癌症-突变组合。前三种组合为肺腺癌(LUAD)-TP53突变(共235种药物有调节作用)、肺鳞癌(LUSC)-TP53突变(228种药物)、胃腺癌(STAD)-TP53突变(224种药物)。TP53是许多癌症中突变最频繁、研究最深入的基因之一。该突变已被证明与癌症干细胞和耐药性功能相关,从而调节耐药性。

TCGA - pan-cancer基因突变药物反应预测关系

作者分析了11个在所有TCGA样品中变异率高于10%的基因 。确定了2119个突变-药物对,其中1882对(88.8%) 耐药,237对(11.2%) 敏感。

对于前五种数量最多的药物反应-调节基因,TP53和TTN突变分别与最多的耐药药物和敏感药物相关。因此,作者进一步研究了2种基因药物应答与状态的关系。

野生型TP53是CX-5461和索拉非尼发挥抗癌作用的必要因素,能使癌细胞对硼替佐米敏感 ,并增强了苯乙双胍诱导的生长抑制和凋亡。

对于之前较少研究的TTN突变,研究结果显示TNN可能是对维诺瑞滨和epothilone等药物敏感的标记基因。

单癌和泛癌的研究结果证明了模型在预测肿瘤药物反应和寻找肿瘤中调节药物反应的新基因的能力。

TCGA多西他docetaxelCX-5461的药物基因组学分析

作者以两种药物为例,对药物耐药性相关突变和表达谱进行研究。

对于每一种药物,比较预测为非常敏感和耐药(IC50在最先1%和最末1%,每组n = 91)的患者。

多西他赛敏感患者的主要癌症类型为食管癌(ESCA;25.3%)、宫颈癌(CESC;13.2%)以及头颈部鳞状细胞癌(HNSC;9.9%),而耐药患者主要为肝癌(LIHC;42.9%)、LGG(26.4%)、胶质细胞瘤(GBM;12.1%)。

CX-5461最近被证明在治疗急性髓系白血病(LAML)方面优于标准化疗方案。LAML和b细胞淋巴瘤(DLBC)的患者共占45.1%,对CX-5461的应答极好。

对于Docetaxel的基因,平均每个敏感肿瘤有2.7个突变,而耐药组为0.51个。

对于CX-5461,前10个差异突变的9个基因集中在耐药组,以TP53突变为主(突变率:耐药组95.6%,敏感组13.2%) 。IDH1是敏感肿瘤中唯一优先突变的基因,且以LGG为主(44个敏感LGG中42个发生突变)。

药物基因组学分析揭示了众所周知的多西他赛的耐药机制,揭示了CX-5461对造血系统恶性肿瘤和LGG的潜在作用。

总结:

(1)本文提出了一个DNN模型,基于癌细胞或肿瘤的突变和表达谱来预测药物反应。模型提高了药物反应的预测准确度。将模型应用于肿瘤中,还发现了研究良好且新颖的耐药机制和药物靶点。

(2)由于具有高表征能力和模型的复杂性,该方法存在过拟合的问题。针对这一问题,本研究将训练数据划分为训练集和验证集,使得训练过程能够提前停止。未来的工作可能会进一步将dropout和regulalization纳入DNNs。

(3)模型可以将整合额外的基因组突变信息,例如拷贝数的改变,进一步降低MSE。

(4)随着神经网络的发展,最近提出了几种新的方法来提取神经网络学习到的特征。未来的工作可以结合这些方法,进一步揭示新的致癌基因组谱。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱相关推荐

  1. 生物信息学之抗癌药物反应论文阅读五:L1000+DTI

    论文地址:Drug–target interaction prediction with a deep-learning-based model 基于深度学习的药物-靶标相互作用预测 作者信息: Li ...

  2. 生物信息学之抗癌药物反应论文阅读一:DeepProfile

    论文地址:DeepProfile: Deep learning of patient molecular profiles for precision medicine in acute myeloi ...

  3. 生物信息学之抗癌药物反应论文阅读四:MD-WDNN

    论文地址:Deep learning predicts tuberculosis drug resistance status from genome sequencing data 基于深度学习和基 ...

  4. 推荐系统公平性论文阅读(六)

    做为最后一篇论文阅读记录,我决定对我目前为止粗读和精读的论文进行一次总结,然后陈述一些个人对该研究领域的见解和想法. 论文总结归纳 推荐系统中的偏差和不公平现象是随着推荐算法的诞生就与生俱来的,而不是 ...

  5. 深度学习论文阅读目标检测篇(六)中文版:YOLOv3《 An Incremental Improvement》

    深度学习论文阅读目标检测篇(六)中文版:YOLOv3< An Incremental Improvement> 摘要 1. 引言 2. 方案 2.1. 边界框预测 2.2. Class P ...

  6. [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  7. 论文阅读丨神经清洁: 神经网络中的后门攻击识别与缓解

    摘要:本文将带你了解深度神经网络的后门知识,作者提出了一种可靠且可推广的DNN后门攻击检测和缓解系统,这是了解对抗样本和神经网络后门攻击的深度解读. 本文分享自华为云社区<[论文阅读] (02) ...

  8. [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. [论文阅读] (26) 基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  10. [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意行为(恶意代码ROI分析经典)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

最新文章

  1. WPF布局(2) 使用的DockPanel面板进行简单的布局
  2. android+点击屏幕隐藏键盘,Android点击EditText文本框之外任何地方隐藏键盘的解决办法...
  3. C语言strchr()函数(字符串中查找子字符)
  4. ios view 切上部分圆角_ios – 具有圆角的UIView:如何正确剪辑子视图?
  5. 正则表达式(Java版整理)
  6. c语输入单引号_C语言的printf不能用单引号?
  7. DLedger —基于 raft 协议的 commitlog 存储库
  8. 互联网日报 | 3月7日 星期日 | 《你好,李焕英》成中国影史票房亚军;丰巢新增智能存包柜业务;特斯拉推出内部社交平台...
  9. DBA的宿命(困兽之斗)
  10. PostgreSQL在何处处理 sql查询之二十五
  11. 2020年度软件和信息技术服务竞争力前百家企业名单出炉 —— 旋极信息再次荣登榜单
  12. 互联网+O2O 的商业模式
  13. 转载:Ceph论文译文
  14. [Image_Codec]常见图片格式的封装及编解码-Android平台(三)JPG
  15. HCL实验:用VRRP实现路由备份及负载分担
  16. 每日学英语20040722
  17. interrupt、interrupted 、isInterrupted、InterruptedException
  18. libpython3.7m so静态库_Python3.7:加载共享库时出错:libpython3.7m.so.1.0
  19. 三相LCL型并网逆变器电流闭环虚拟阻尼控制Simulink仿真
  20. android surfaceflinger 老罗,《老罗的Android之旅》阅读笔记——SurfaceFlinger服务

热门文章

  1. 简历上怎样写期望薪资,才能让你面试时工资翻倍?
  2. STM8S系列基于STVD标准库外设库开发,PWM输出实现LED呼吸灯效果
  3. 发现同义词 python_用词代替同义词
  4. C#反射Activator
  5. 2022阿里巴巴云栖大会
  6. markdown数学公式编辑指令大全
  7. LeetCode:934. Shortest Bridge - Python
  8. 找回HDFS corrupted文件残留数据
  9. c语言九宫格的递归算法,九宫格 数独 求解 算法 栈实现
  10. 突破运营商 QoS 封锁,WireGuard 真有“一套”!