生物信息学之抗癌药物反应论文阅读三：ML+PDX

论文地址：Machine learning models to predict in vivo drug response via optimal dimensionality reduction of tumour molecular profiles

基于机器学习和肿瘤分子谱降维的体内药物反应预测研究

作者信息：

Linh Nguyen1,2，Stefan Naulaerts1，Alexandra Bomane1，Alejandra Bruna3，Ghita Ghislat4和Pedro J. Ballester1

1马赛癌症研究中心。

2越南河内科学技术大学药理学、医学和农学生物技术系。

3英国剑桥研究所癌症研究所，剑桥大学李嘉诚中心。

4 Marseille-Luminy免疫中心。

研究背景

抗癌药物的功效强烈依赖于患者自身，因此需要找到准确的方法来预测哪些患者将对给定的抗癌治疗作出反应。

迄今为止，主要方法是鉴定特定的体细胞突变作为治疗反应者和非反应者的单基因生物标志物。这种方法能够预测患者对某些药物的反应，但是绝大多数药物的标志物尚未被发现。此外通常发现的药物标记物对特定癌症类型具有预测性，这意味着它可能无法预测其他类型患者的反应。而且大多数情况下已知的药物-基因对并不是药物反应的强预测因子。

例如：EGFR在非小细胞肺癌（NSCLC）中的突变状态是FDA批准的对Erlotinib反应的标志物。在某项研究中发现EGFR突变NSCLC肿瘤的反应率仅为16％（即准确率为16%）。同一项研究表明三分之二的NSCLC患者通过不涉及EGFR突变的分子机制对厄洛替尼作出反应。

上述表明，单一的基因 - 药物反应关联经常无法在临床上产生重大影响。在这种背景下，机器学习（ML）正在成为一种有前途的精确肿瘤学补充方法。

ML应用于此问题的限制因素是相关数据的可用性。尽管通常承诺公开发布用于精确肿瘤学的新临床药物基因组学数据集，但药物反应数据通常被排除在外。即使包含该信息，癌症患者通常在样本采集后接受药物组合和多种治疗方法，从而妨碍直接关联和药物反应新预测因子的发现。

在这种情况下，患者衍生异种移植（PDX）模型对于补充临床数据非常重要。它保存了原始癌症样本和临床人群中观察到的肿瘤内和肿瘤间异质性。

PDX模型可以看成是NCI-60细胞系的替代。它将取自病人的小块肿瘤组织植入实验小鼠体内，模拟其原来的生长环境，最大程度的保留肿瘤自身的特征，同时由此培养的肿瘤还可移植给其他小鼠，扩大样本规模，用于各种研究。

NCI-60细胞系的缺点：

1.缺乏异质性，对癌症的研究往往过于片面。

2.经过上千代的传代培养、无数实验室的流通，细胞的基因组和行为都背离了当初的模样。

3. 细胞在培养和流通过程中常发生污染和变异问题，而这些问题不易被研究者察觉。

这些都造成了研究领域对更加合理的研究模型的需求。

PDX的缺点----移植成功率较低

研究方法

数据集：NIBR-PDXE

来源：

[1] GAO H, KORN J M, FERRETTI S, et al. High-throughput screening using patient-derived tumor xenografts to predict clinical trial drug response[J]. Nature Medicine. 21, 1318–25 (2015).
这个Excel文件有五个选项卡，名为RNASeq_fpkm，copy_number，pdxe_mut_and_cn2，PCT_raw_data和PCT_curve_metrics。前三个标签包含异种移植肿瘤的三个分子谱。 RNASeq_fpkm选项卡包含基因表达值。 copy_number选项卡包含每个基因的实际拷贝数。

拷贝数也可以在pdxe_mut_and_cn2选项卡中作为分类变量使用（该表还包含每个基因检测到的突变）。

在这些omic级别中分析了大约400个PDX模型。另外两个选项卡为治疗响应数据。原始响应数据标签（PCT_raw_data）包括每3-4天记录的每个处理的PDX在治疗开始时肿瘤体积变化相对于肿瘤体积的百分比（％ΔTVol）。

最后，处理的响应数据标签（PCT_curve_metrics）包括将PDX响应分类为从原始响应数据计算的四个类别之一。

作者利用NIBR-PDXE数据集来研究ML如何改善肿瘤分子谱的体内药物反应预测。这是第一次针对此目的分析NIBR-PDXE数据。

处理响应数据

对于每个PDX，从处理过的响应数据中检索并计算其类别。同时，作者根据原始响应数据计算类别。计算是基于变量最佳响应(t≥10天时%∆TVol的最小值)和最佳平均响应（t≥10天时平均响应集的最小值）。

检索和计算的响应类别在4758对pdx-治疗对中的277对中存在差异。虽然这种差异很小(主要是相邻类别之间的交换)且数量不多(5.8%)，但作者决定在这些案例中使用计算过的类别，以便所有的pdx-治疗对都按照相同的规则进行分类。Gao et al.进一步将PDX响应数据细分为两类:反应者(PDXs)对治疗表现出一定程度的敏感性(CR, PR或SD)，而非反应者(PD)对治疗表现抗性。

响应类别：

CR（完全响应）：最佳响应<-95％且最佳平均响应<-40％;

PR（部分响应）：-95％≤最佳响应<-50％且-40％≤最佳平均响应<-20％;

SD（稳定疾病）：-50％≤最佳反应<35％和-20％≤最佳平均反应<30％;

其余为PD（进行性疾病）。

处理分子谱数据

单核苷酸变异（SNV）:对于每个基因，如果检测到体细胞突变（在pdxe_mut_and_cn2中报告），则该基因的单核苷酸变异（SNV）特征被赋值为1，否则为0。该编码方案导致在SNV水平上分析的每个PDX由一组15,232个二元特征组成。

拷贝数（CN）:每个基因的实际拷贝数。由23,853个实值特征组成。

pdxe_mut_and_cn2提供如下分类拷贝数数据：

Amp5:基因中等扩增，5<=拷贝数<8，

Amp8：如果基因强烈扩增，拷贝数> = 8

Del0.8：如果基因被删除，拷贝数<= 0.8。

拷贝数更改（CNA）:对拷贝数数据进行了二元化处理，异常拷贝数（Amp8，Amp5或Del0.8）的值为1，其余为0。

Gene EXpression（GEX）：直接与RNASeq_fpkm标签中提供的数据相对应。每个PDX在GEX水平上被描述为一个22,665维的实值特征。

已处理的数据集

NIBR-PDXE中只有部分PDX模型同时具有治疗反应和分子谱。之前的研究表明，用一个仅在35个肿瘤上训练的ML模型，就有可能预测出验证集肿瘤的药物反应。

由于作者没有注意到使用更小训练集的成功研究，所以将重点放在两种治疗中具有最多PDX描述的癌症类型，乳腺癌(BRCA)和结直肠癌(CRC)，在这26个治疗方案-癌症类型对中，除了一种，均至少有35个PDX。其中，一组13种治疗方法用于BRCA PDX模型，另一组13种治疗方法用于CRC PDX模型。每个PDX都有治疗反应、SNV、CNA和GEX数据。

将数据集中的PDX分为真阳性，真阴性，假阳性和假阴性（它们的数量分别为TP，TN，FP和FN）。计算马修斯相关系数（MCC）：

MCC可以取值-1到1，其中1表示分类器在观察类和预测类之间完全一致，-1表示完全不一致，0表示分类器性能等同于随机预测类的性能。

同时，还计算了每个预测器的精度（PR）和召回（RC）。其定义如下：

PR值为0：预测为敏感的所有PDX实际上是抗性的。

PR值为1：所有敏感的PDX被预测为敏感。

RC值为0：分类器没有正确识别敏感的PDX。

RC值为1：分类器没有丢失敏感的PDX。

具有内置特征选择的多基因分类器

随机森林（RF）可有效地对高维数据建模。本文使用RF超参数的推荐值（树的数量为1000，mtry为的特征数目的平方根）。使用每个数据集（治疗方案 - 癌症类型-分子谱）上的所有特征（RF-all）来执行LOOCV（10次）以估计RF的性能。

由于类别不均衡会带来一些性能损失，因此在RF算法中启用了类权重，它通过对错误分类的少数类别加重惩罚来抵消类不平衡。

单基因标记

使用完全相同的数据为26种治疗方案-癌症类型对中的每一种确定了最佳的单基因标记。

将SNV谱用作检测的体细胞突变的来源，因为目前常将它们用作肿瘤学中的药物基因组学标记。通过计算双侧Fisher精确检验确定了具有最低p值的敏感标记并报告了其LOOCV性能。

具有最佳模型复杂性的多基因分类器

提高预测性能的有效方法是降低数据的维度。这里，数据维度可以定义为特征数量。仅考虑数据中信息量最大的特征可以减少数据维度，同时保留了大部分初始信息内容。然而，特征的最佳数量取决于各种因素（治疗方案，谱信息，癌症类型和数据集）。因此，作者设计了最优模型复杂度（OMC）作为仅使用最相关特征来构建ML模型的策略。

OMC由三个模块组成：一个根据它们与治疗反应的相关性对特征进行排序，另一个用于根据所考虑的特征子集训练ML模型，第三个用于在训练的模型中选择最佳模型。关于特征排名，本文使用双边Fisher精确检验的p值来对SNV和CNA中的二进制特征进行排序，并使用双边t检验的p值对实值特征进行排序。

对于每种谱、治疗方案和癌症类型，作者考虑了n / 2个特征子集（n是可用于该情况的PDX的数量）：前2个特征的子集，前3个特征的子集，......，前n / 2个特征的子集，最后是所有的特征的集合。最后选择这n / 2个模型中具有最高LOOCV MCC值的模型。

实验结果

单基因标记性能的维恩图

用厄洛替尼治疗100名NSCLC患者，其中19名患有EGFR突变。然而，尽管是FDA批准的基因组标记，但EGFR的突变状态是对厄洛替尼的NSCLC肿瘤反应的适度预测因子。实际上，84％（16/19）的EGFR突变体肿瘤没有反应。此外，7％（6/81）具有野生型EGFR的NSCLC肿瘤实际上对该药物有反应。

为每种治疗方案-癌症类型对建立最佳的多基因预测因子

作者使用“留一交叉验证”（LOOCV）在每个数据集上训练和评估了两个ML算法。

第一种算法是使用所有可用特征（RF-all）的RF，而第二种算法是RF的OMC变体，用于识别每种情况下最具预测性的特征（RF-OMC）。

每个算法进行10次交叉验证，从而获得每个案例的每个性能度量的10个估计。研究总是报告每种算法在未用于训练模型的 PDXs上的平均性能。

作为比较，本文还进行了标准的单基因分析，以评估当检测到可行的SNV时哪些基因使PDX对治疗敏感。

对于每种ML算法，图中显示了26个病例最具预测性的分子谱的性能。由于CNA只是拷贝数（CN）的二元化，在给定的案例中，最佳模型中CN的频率比CNA高得多（19 vs 3）。

最佳单基因(SG)标记、具有最佳模型复杂度(RF- OMC)的随机森林(RF)和使用所有特征(RF-all)的RF的预测性能比较

图左显示了BRCA PDXs上的每个治疗方案和分类模型类型的最佳预测因子。每行显示一个处理的结果，并以该处理的最佳分类器命名。

paclitaxel_RF-OMC-SNV (2 fts)意味着紫杉醇以RF-OMC-SNV作为分类器，在LOOCV 中MCC中值最大，该分类器采用SNV谱中的前2个特征 (MUC20和UPK3BL)。

RF-OMC不仅在26个病例中的14个病例中产生了更精确的预测，而且仅需要很小一部分基因变异。相比之下，RF-all仅在26个病例中的5个病例中产生了更精确的预测。总的来说，这些结果强调了考虑几种模型类型和分子谱来预测药物治疗反应的重要性。在接下来的三个小节中，将进一步分析被发现具有最高准确度的三个预测因子。

预测BRCA PDX对Binimetinib的反应

用Binimetinib处理的BRCA PDX的最佳多基因预测因子是使用GEX数据的RF-OMC。

分析丢弃了Binimetinib-BRCA的其他三种分子谱（SNV，CN和CNA），因为它们在这种情况下的预测性远低于GEX谱。 RF-OMC实际上提供与RF-all相同的性能（MCC分别为0.57和0.56）。

然而，RF-OMC利用了22,665个基因中的14个。因此得到的RF-OMC预测是仅这14个基因的表达值的组合，而RF-all使用所有22,665个GEX特征。

多基因预测因子与Binimetinib-BRCA的最佳单基因标记的比较（PABPC3）

每条线代表一个PDX。纵轴表示在零时刻（T0;即在第一次给药前）肿瘤体积变化相对于肿瘤体积的百分比，横轴表示T0后的测量时间，以天为单位。红色不连续线表示假阴性，蓝色不连续线表示假阳性。预测器越好，底部的蓝色（更高的召回率）和顶部的红色（更高的精度）线条的比例越高。

（左）Binimetinib_RF-OMC-GEX（14 fts）：RF-OMC模型通过组合仅14种表达水平预测BRCA肿瘤对Binimetinib的反应。在未用于训练模型的PDX上实现了高水平的预测准确性：MCC = 0.57，PR = 0.77，RC = 0.91。

（右）Binimetinib_SG-PABPC3（1 fts）：使用相同的输入数据和评估方案，Binimetinib敏感性的最佳单基因标记是PABPC3的突变状态。

Binimetinib_RF-OMC-GEX获得比其高得多的预测水平（MCC = 0.24，PR = 0.68和RC = 0.68）。

预测紫杉醇对BRCA PDX的反应

紫杉醇处理的BRCA PDXs的最佳多基因预测因子是将RF-OMC应用于SNV存在与否的点突变数据。分析排除了紫杉醇- BRCA(GEX、CN和CNA)的其他三个分子谱。由此产生的RF-OMC模型使用了这15232个基因中的两个(MUC20和UPK3BL)。基于RF的两种突变状态的组合比使用所有基因的突变状态(MCCs分别为0.49和-0.07)的RF模型提供了更强的预测能力。

最好的单基因标记物的表现也很差。虽然这种敏感突变与紫杉醇相关性最强(P=0.04)，但其在验证的PDXs中的表现表明这是一种虚假的相关性。

（左）Paclitaxel_RF-OMC-SNV（2 fts）：RF-OMC通过2个基因突变状态的组合预测BRCA肿瘤对紫杉醇的反应。在未用于训练模型的PDX上实现了高水平的预测准确度。

（右）紫杉醇_G-HYDIN（1 fts）：使用相同的输入数据和评估方案，紫杉醇敏感性的最佳单基因标记是HYDIN的突变状态。

预测CRC PDX对西妥昔单抗的反应

西妥昔单抗治疗CRC PDXs的最佳多基因预测因子为RF-OMC，应用于点突变数据。另外三种Cetuximab-CRC (GEX, CN和CNA)的分子谱因预测能力低于SNV而被舍弃。

作者确定了15232个基因中的4个，它们的联合突变状态比使用所有基因的突变状态的RF模型提供更好的预测(MCCs分别为0.47和0.39)。

（左）Cetuximab_RF-OMC-SNV（4 fts）：RF-OMC通过4种基因的突变状态的组合预测CRC肿瘤对西妥昔单抗的反应。在未用于训练模型的PDX上实现了高水平的预测准确度。

（右）Cetuximab_SG-ACR（1 fts）：使用相同的输入数据和评估方案，西妥昔单抗敏感性的最佳单基因标记是ACR的突变状态。最好的单基因标记物的性能更高。

多基因预测因子通常比单基因标记物提供更高的召回率

在以上三个案例中，多基因预测因子比相应的最佳单基因标记表现出更高的召回率。更具体地说，多基因预测因子召回率分别为0.91、0.88和0.81，而单基因为0.68、0.00和0.56。下图显示了这实际上是总体趋势:多基因分类器在26种治疗-癌症类型对中的23种中表现出比单基因标记物更高的召回率。

图中标记物的召回率高于RF-OMC的三种情况都是基于非常高的流行率的基因(KIF20B、TMEM184A和LSR分别在肿瘤中流行率分别为47%、61%和85%)。

这一普遍趋势是有意义的，因为构建标记只能检测到那些具有可操作突变的响应性肿瘤。相比之下，ML算法可以隐含地从数据本身学习所有这些机制。

总结

本文使用改进的ML算法分析患者衍生异种移植（PDX）药物基因组数据集。结果显示，通过ML组合多个基因变异导致在26个分析病例中的19个中更好地区分敏感和抗性PDX。

改进给定案例预测的有效方法是评估几种数据模型类型。例如，如果只考虑标准RF算法或只有GEX配置文件可用，那么预测结果会更变差。RF-OMC相对于标准RF模型的另一个优点是仅需要对少数基因进行分析以预测PDX是否有响应。

高度预测模型中简洁的基因列表对于临床应用具有价值。以构成Binimetinib-BRCA GEX预测因子的14个基因为例，可以方便的解释这些基因表达值之间的非线性相互作用如何准确预测BRCA PDX对Binimetinib的反应。另一方面，简明的基因列表允许更低廉和更快的临床实施。