A Transfer-Learning-Based Deep Convolutional Neural Network for Predicting Leukemia-Related Phosphorylation Sites from Protein Primary Sequences

期刊:international journal of molecular sciences

中科院分区:2区

影响因子:6.208

发表时间:2022.02.03

文章链接:https://doi.org/10.3390/ijms23031741

数据集和代码:无

目录

摘要

1.背景

2 结果和讨论

2.1 磷酸化蛋白质的功能分析

2.2 磷酸化肽的位置特异性保守谱

2.3  磷酸化肽长度优化和与五种机器学习方法的比较

2.4 最终预测模型的构建

2.5 在其他两个小型数据集上进行迁移学习

3.方法与数据集

3.1数据集

3.2.卷积神经网络和迁移学习

3.3.传统的机器学习方法

4.结论


摘要

摘要:作为最重要的翻译后修饰之一,磷酸化是指磷酸基团与氨基酸残基如丝氨酸(S)、苏氨酸(T)和酪氨酸(Y)结合,从而在分子水平上产生不同的功能。异常磷酸化已被证明与人类疾病密切相关。据我们所知,还没有描述特定疾病相关磷酸化位点预测的研究报道,这对于全面了解疾病机制具有重要意义。在这项工作中,我们着眼于三种类型的白血病,旨在通过结合深度卷积神经网络(CNN)和迁移学习来开发一个可靠的白血病相关磷酸化位点预测模型。CNN可以从原始序列中自动发现复杂的磷酸化模式,因此它为改进白血病相关磷酸化位点预测提供了一个强有力的工具。对于最大的髓性白血病数据集,S/T/Y磷酸化位点的最佳模型分别给出了0.8784、0.8328和0.7716的AUC值。当在小规模数据集上进行迁移学习时,T细胞和淋巴细胞白血病模型也通过共享最优参数而表现出良好的性能。与其他五种机器学习方法相比,我们的CNN模型显示了优越的性能。最后,白血病相关的发病机理分析和磷酸化蛋白的分布分析以及K-means聚类分析和磷酸化位点的位置特异性保守谱都表明了我们易于使用的CNN模型的强大的实际可行性。

1.背景

蛋白质的翻译后修饰(PTMs)是通过共价修饰和通常的酶修饰来调节细胞功能的关键机制,在调节各种生物过程中起着至关重要的作用[1]。蛋白质磷酸化是真核生物中最重要的翻译后修饰之一[2]。通过以动态方式将磷酸部分共价连接到Ser (S)、Thr (T)或Tyr (Y)残基上[3,4],它调节许多细胞过程,如DNA生长、代谢和细胞周期控制[5,6]。目前,许多磷酸化位点已经通过不同的实验技术得到了准确的验证,并且建立了相关的数据库,如dbPSP 2.0数据库[7],PhosphoPep数据库[8]和Phospho数据库。

基于可用的磷酸化位点数据,已经提出了机器/深度学习方法用于磷酸化位点预测。其中,传统的机器学习模型是通过人工提取有效特征来表示磷酸化位点信息,如香农熵、相对熵、信息增益、蛋白质无序度、平均累积疏水性等。[10–12].如今,基于卷积神经网络(CNN)的深度学习方法也已经被提出,其仅将原始序列数据作为输入,而不需要手动特征提取。比如王等人。艾尔。[13]使用了一种新的二维注意力机制来预测一般和激酶特异性磷酸化位点。罗等人。艾尔。[14]已经提出了密集连接的卷积神经元网络块,其可以通过块内连接层和块间连接层捕获序列的多种表示,以进行最终磷酸化预测;艾哈迈德等人。艾尔。[15]使用堆叠式长短期记忆循环网络,该网络从相连的蛋白质描述符中学习蛋白质表达,以预测磷酸化位点。

已经证实磷酸化位点与蛋白质功能改变有关[18],并且现已证明异常磷酸化与人类疾病密切相关[19]。兰德尔等人。艾尔。[20]已经表明,TDP-43磷酸化的增加导致许多神经毒性效应,包括液液相分离动态性降低、剪接变化、细胞质定位错误和聚集,这最终导致神经毒性和神经变性,并可能导致肌萎缩性侧索硬化和额颞叶变性。张等人。艾尔。[21]已宣布淀粉样前体蛋白(APP)的磷酸化是调节β淀粉样蛋白生成的关键之一,APP的磷酸化异常会导致β淀粉样蛋白在中枢神经系统中的异常积累,这是阿尔茨海默病的一个标志。Brustovetsky [22]发现,collapsin反应介质蛋白2磷酸化抑制了Drp1和Miro 2之间的相互作用,后者参与调节线粒体动力学并导致亨廷顿氏病。西蒙等人。艾尔。[23]报道了核糖体S6激酶在CaM自动调节结构域中Ser289处的磷酸化降低了死亡相关蛋白激酶I的凋亡活性,这导致了神经退行性疾病,例如缺血性中风和阿尔茨海默病。因此,许多疾病相关的磷酸化位点已被识别,并建立了数据库,如qpos[24],PTMD [25]和PhosphoSitePlus [26]的数据库。到目前为止,除了徐等人的工作之外,很少有关于人类疾病相关磷酸化位点预测的研究报道。艾尔。[27]世卫组织提出了一种基于组合特征选择方法的SVM,该方法结合了mRMR过滤过程和正向特征选择过程,以识别疾病相关的磷酸化位点。目前,还没有针对特定疾病相关磷酸化位点预测的研究。因此,迫切需要在大规模磷酸化蛋白质组中识别这些特定的疾病相关磷酸化位点,为全面理解疾病机制和生物医学药物设计提供指导。

我们知道,白血病是一种常见的血液恶性肿瘤,由白细胞的异常生长引起,患病的白血病细胞可以进入血液,影响体内正常细胞的代谢[29]。白血病是一种全身感染性恶性肿瘤,病毒表达过程与蛋白质磷酸化密切相关[30,31]。目前已经积累了白血病相关磷酸化位点数据。在这种情况下,我们旨在开发可靠的预测模型,以区分白血病相关的磷酸化位点和非磷酸化位点。

大多数现有的磷酸化位点预测的计算方法是基于人工特征提取。现有的手动特征提取技术针对磷酸化位点的片面材料信息,不能充分描述磷酸化修饰位点的复杂生物特性,这可能导致不完整或有偏见的特征表示[32]。基于端到端的深度学习能够自动发现复杂模式,并自适应地从训练数据中获取高层抽象,因此比人工提取更适用于变化的自然数据,具有良好的泛化能力和鲁棒性,能够为最终的预测模型选择最佳的判别特征子集。深度学习作为前沿方法,允许其计算模型输入原始数据,并自动发现分类所需的蛋白质功能的复杂表示,从而为改进蛋白质功能预测提供了强有力的工具。

在这项工作中,只有一个卷积,汇集和密集层,分别是一个易于使用的CNN架构,用于预测白血病相关的磷酸化位点,只使用蛋白质一级序列。这里,收集了三类白血病的磷酸化位点数据,包括髓细胞性、淋巴细胞性和T细胞性白血病。由于髓性细胞具有最大的数据集,并且可以提供足够的样本来实现CNN模型,因此髓性细胞相关的S/T/Y磷酸化位点预测模型由我们的CNN架构构建。为了评估该方法的性能并证明其优势,我们还使用了其他五种机器学习方法来构建预测模型。通过比较,当所有模型都基于序列信息时,我们的CNN模型产生了有希望的性能,优于其他五个模型。最后,通过深度迁移学习框架,使用来自骨髓相关数据集的预模型来构建小规模数据集的淋巴细胞和T细胞白血病预测模型,在小规模数据集上的良好性能证明了我们的模型的强大可行性。

2 结果和讨论

2.1 磷酸化蛋白质的功能分析

在我们的三个白血病相关数据集中,所有磷酸化位点都来自8011磷酸化蛋白。为了深入了解与白血病相关的基因,我们使用Metascape数据库[33]进行了功能途径富集分析,在所有富集的途径中发现了1707个基因。功能途径富集是由分析工具执行的统计分析,以挖掘与我们正在研究的生物学问题显著相关的基因功能类别的数据库。统计学原理是通过超几何分布、富集分析和假阳性分析来检验一组基因(共表达或差异表达)中一个功能类的显著性,并确定与低假阳性率和靶向性显著相关的基因的功能类。图1A中的热图显示了最重要的途径,图1B C显示了分别基于基因聚类富集和p值构建的功能性途径相关网络。同时,补充表S1列出了前20个丰富术语的详细信息。结果表明,这些基因的通路主要与细胞形态变化有关,包括细胞器分裂、细胞周期、细胞周期相变和膜运输等。近年来,许多研究人员关注白血病中的细胞形态学变化,表明细胞形态学变化在作为白血病的生物标志物中起着重要作用[34,35]。我们还可以看到,大多数基因聚集在图1B的右侧,根据图1C中的值,它们都非常显著,因此它们主要参与细胞形态变化相关的通路,这表明细胞形态变化相关的通路对于白血病是重要的。此外,基于肌动蛋白丝的过程、Rho GTP酶的信号传导和小GTP酶介导的信号转导途径也与白血病密切相关,因为这三种途径分别涉及400多个基因。

此外,磷酸化蛋白在不同类型白血病中的分布也在图1D中给出。我们可以看到,每种类型的白血病通常都有自己的特异蛋白,其中很少是共有蛋白,因此也对每种白血病类型的相应蛋白进行了单独的功能分析(补充图S1)。详细情况见补充表S1。类似地,除了WP3888 (VEGFA-VEGFR2信号通路)也在图1A中富集外,在它们之间观察到很少共同的富集通路,表明它可能在白血病的进展中起重要作用。从这些结果中,我们可以得出结论,由于不同类型白血病相关磷酸化位点的蛋白质的功能是不同的,因此为每种特定类型的白血病构建预测模型更具有实际意义。

最后,我们对髓性白血病的所有磷酸化位点进行了K-means聚类分析。通过使用K-means算法,所有样本可以根据它们之间的距离分成K个聚类。最佳类别K值使得一个聚类内的样本是最紧密连接的,而跨聚类的样本具有最大距离。这里,长度为201的每个磷酸化肽被转化成一个热载体。如图2所示,最佳分类K值为3,表明尽管它们都与髓细胞性白血病相关,但数据集中仍存在数据可变性。此外,分别对S、T和Y数据集进行聚类分析也给出了相同的观察结果,即每个数据集都可以清晰地分为三类(补充图S2)。由于样本之间存在明显的变异性,在随机划分训练集和测试集的过程中,为了保证数据分布的完整性,随机抽取每个聚类中90%的数据作为训练集,每个聚类中10%的数据作为测试集。这种随机选择被重复100次,以给出模型性能的更可靠的评估。

2.2 磷酸化肽的位置特异性保守谱

相邻的残基对功能位点并不同等重要。有些对于蛋白质的正确结构和功能是必不可少的,而其他的可以很容易地被取代[36]。事实上,对于一个给定的序列片段,不同位置的保守性不同,一些高度保守的残基可能对白血病相关的磷酸化位点有贡献。因此,磷酸化位点周围的小范围氨基酸被认为是代表PTMs位点预测的蛋白质序列信息的主要序列特征[37]。因此,有必要分析白血病相关磷酸化位点周围相邻位置的重要性。Nakariyakul等人的工作。艾尔。已经表明蛋白质结构域基本上在十个残基之间[38]。这里,对于位置特异性的保守分析,我们将磷酸化片段的长度设置为21-nts,因此每个片段包含中间磷酸化位点及其上游和下游侧的10-nts侧翼。基于阳性和阴性样品,进行氨基酸富集分析,并通过两个样品标志生成图形序列标志(t检验p < 0.05)[39]。图3A–D分别显示了所有位点S、T和Y的阳性和阴性样品之间的残基位置特异性保守性差异。通过平行对比,可以明显看出相同残基的分布在侧翼位置有足够大的差异。如丁等人[40]所述,在进化史中,相同的残基可能携带不同的信息,从生物学角度来看,保守位置的残基通常比非保守位置的残基显示出更强的功能相关性。我们在所有磷酸化位点数据中发现脯氨酸和酪氨酸的高度富集,而在阴性样品中发现明显的缺失。而对于Y磷酸化位点,阳性样品中存在较多的谷氨酸、天冬氨酸、丙氨酸和酪氨酸,阴性样品中出现较多的精氨酸、赖氨酸和亮氨酸。此外,通过垂直对比,在阳性和阴性样品之间也可以观察到显著的残留物分布差异。特别是对于阳性样品,脯氨酸总是更多地聚集在磷酸化位点之后。然而,在阴性样品中没有显著的基序模式。

深度学习模型的独特优势之一是能够自动从模型训练期间的输入中提取预测特征[41]。我们通过研究在卷积层中激活过滤器的测试序列,探索了我们深CNN中学到的特征。当滤波器在N末端序列上滑动时,它作为基序检测器的功能,并在某些位置匹配其偏好时被激活。通过在位置激活过滤器的比例,我们观察到,当它们在Y数据集中的17到25位的连续区域中卷积时,大多数过滤器被激活,在S数据集中的位置从30到39,位置从11到11到39 18在t数据集中。对这些激活序列进行排列,以获得由位置权重矩阵表示深度学习的学习基础序列。结果表明,深色CNN揭示的发现的氨基酸基序会对三个类数据集的已知基序产生高相似性形状。我们使用Weblogo工具[42]生成已知的氨基酸基序,并发现了Y数据集的CNN模型揭示的基序(图3E)。尽管Y数据集通过特定位置的保护分析在磷酸化肽和非磷酸化肽之间没有显着差异,但是两个基序之间的相似性非常高,这也进一步验证了CNN自动提取序列特征信息的可行性。

2.3  磷酸化肽长度优化和与五种机器学习方法的比较

由于蛋白质的空间折叠结构,依次远处的残基可能与空间结构中的变体位点紧密接近,这会影响磷酸化位点的环境信息。在这里,我们使用不同的磷酸化肽长度来构建预测模型,并旨在分别找到S/T/Y磷酸化位点的最佳肽长度。实际上,利用了N位单元中的10个不同的段(n = 10,20,。。,100)。每个片段肽都包含上游和下游侧面的中间磷酸化位点和N位点元素。基于10种不同肽长度的CNN模型的预测性能如图4所示。我们发现,不同磷酸化肽的不同长度确实会影响模型的性能,而S,T和Y模型的最佳肽长度为141、41和分别为121

为了证明CNN模型的优势,基于S,T和Y的最佳肽长度,还使用其他五种机器学习算法来构建预测模型,包括支持向量机(SVM),Naive Bayes(Naive Bayes)( NB),K-Nearest邻居(KNN),随机森林(RF)和极端梯度提升(XGBoost),因为这些算法通常用于磷酸化位点预测研究中。在这里,CNN模型可以仅取决于蛋白质的主要序列,不需要对序列上的变体的先验知识[43]。但是机器学习方法无法将序列直接识别为输入,因此我们使用字典编码来确保序列特征的均匀性。磷酸化肽中的每个残基都由一个顺序数表示,其中20个碱性氨基酸中的每一个分配了1至20个数字[44]。因此,每个肽用一个字母的代码表示,并转换为L维矢量,其中L是肽的长度。为了获得令人信服的比较,每个机器学习模型的性能是通过100个随机选择的测试集给出的。我们方法与其他五种方法的比较结果如图5所示。六种方法的所有详细预测结果均在补充表S2中列出。我们知道,传统的机器学习通常需要乏味的功能工程步骤来获得准确的预测结果,而CNN是一种端到端的学习,在数据输入后不需要手工设计的规则,CNN可以通过优化损失来学习规则功能以尽可能挖掘数据的潜在特征。平均而言,我们的模型显示了预测当前白血病数据集的磷酸化位点的显着改善。我们可以看到,就ACC和MCC而言,CNN模型的平均预测精度分别为88.89%,80.87%和77.39%,分别为S,T和Y。

2.4 最终预测模型的构建

交叉验证测试可以减少由数据集的单个分裂引起的意外事件,并提高泛化能力。基于最佳肽长度,分别为S,T和Y构建了最终的磷酸化位点预测模型。基于整个数据集,使用10倍的交叉验证来实现CNN模型的最佳参数,如表1所示。

表2通过10倍交叉验证显示了三个最终CNN模型的预测结果。 S,T和Y模型的ACC为88.89%,88.87%和77.39%的ACC仍然产生有希望的性能。此外,我们绘制了最终模型的学习曲线和ROC曲线,如图6所示。通过图6(s,t和y)的损耗曲线在左列的图6(s,t和y)中,我们可以看到模型是可靠的,没有明显的过度合身。还可以观察到损失不再减少,模型倾向于收敛。此外,右色谱柱上图6中的S,T和Y模型的AUC值分别为0.8784、0.8328和0.7716,这意味着最终模型的性能令人满意。此外,应注意的是,具有最大数据集的S模型可产生最佳性能,因此对于模型构建,更多的样本倾向于提供更好的预测。

最后,进一步测试了最终模型的特异性。由于最终预测模型中未包括剩余的负样本数量,因此可以用作独立的负面因素。 S,T和Y的独立阴性样品的数量分别为17,207、25,340和18,149,我们的模型的预测准确性分别为0.8905、0.8009和0.8484,这表明其中约为10-20%的预测准确性为10-20%。磷酸化位点。但是,合理的是,将来可能会发现当前负面因素的潜在磷酸化位点。

2.5 在其他两个小型数据集上进行迁移学习

当前,可用于T细胞和淋巴细胞性白血病的非常有限的磷酸化位点,因此无法根据如此小的数据集对模型和预测参数进行全面训练和优化。基于髓源的大S,T和Y数据集,我们已经实现了三个可靠的CNN模型,如表2所示。因此,通过公共共享表1中所示的最佳参数,还为T细胞构建了预测模型和淋巴细胞性白血病。除了通过剩下的测试验证的T细胞白血病的T和Y位点的最小数据集除外,其他模型还通过10倍的交叉验证验证。表3中显示了平均预测结果。我们可以看到所有六个模型都产生了有希望的结果。

其中,五个模型达到了超过90%的高SE,表明对于不同的白血病类型,基于迁移学习的CNN可以作为白血病相关磷酸化位点预测的有效策略。

3.方法与数据集

3.1数据集

智人的蛋白质磷酸化数据是从PhosphositePlus [26]中收集的。PhosphositePlus是一个开放的、动态的、持续管理的和高度互动的系统生物学资源,用于研究实验观察到的PTMs在生物过程调节中的作用。从PhosphositePlus中,我们最初使用了“智人”、“磷酸化”和“白血病”多个关键字来提取实验确定的磷酸化位点。这样,从8011个蛋白质中获得了30819个磷酸化位点,分别包括27406个髓细胞白血病磷酸化位点、465个T细胞白血病磷酸化位点和2944个淋巴细胞白血病磷酸化位点。蛋白质序列信息来自UCSC基因组浏览器数据库[45]。报道显示N-末端残基似乎为蛋白质功能表达提供了靶向信息。一些效应器,例如铜绿假单胞菌中的PopD[46],仅依赖于要分泌或转运的前50个残基,一些Yops中的转运信号位于前50-100个残基[47]。由于蛋白质的空间折叠结构,使得蛋白质序列中的远距离残基有可能影响变异位点的环境信息。因此,蛋白质的功能表达可能需要大约100个残基围绕功能位点,所以我们选择了长度为201的肽序列,其中磷酸化位点在中间,两侧各有100个残基围绕。对于末端氨基酸位点,其中侧翼氨基酸的数量少于100,适当数量的虚拟残基“X”被填充以完成肽。输入互补的等长数据后可以得到相同大小的卷积特征图,然后输入全连接层对识别出的展开向量进行进一步处理,达到整合信息的目的。CD-HIT代表“高同一性容错集群数据库”。该程序以fasta格式的序列数据库作为输入,并产生一组“非冗余”的代表性序列作为输出。由于冗余序列会导致过度拟合,我们使用cd-hit [48]来消除序列冗余。进入同一性阈值为0.7的fasta格式序列文件,通过序列比较和聚类的方法去除冗余和相似序列,最终得到非冗余序列文件。对于三个白血病类别,关于磷酸化位点数据的细节可以在表4中看到。

对于阴性样品,我们从含有实验确定的磷酸化位点的8011蛋白质中提取了未经实验证实的S、T和Y残基数据。去除肽长为201的冗余后,阴性样本数远大于阳性样本数,因此随机抽取等量的阴性样本。

3.2.卷积神经网络和迁移学习

与传统的神经网络架构一样,CNN将信息从输入端逐层传递到输出端[49]。CNN是一个多层感知器,由卷积层、整流层、汇集层和全连接层组成。卷积层利用反向传播算法提取输入的不同特征,而校正层使卷积层的输出成为非线性映射。然后,池层将特征划分为多个区域,并取最大值或平均值以获得小尺度的新特征,以防止过拟合。最后,全连通层将局部特征组合成全局特征并计算得分。通过使用反向传播算法,细胞神经网络中的卷积层实现了自学习,直接从序列信息中提取特征,跳过了从序列对象中提取特征和选择特征以确定有效特征的步骤。迁移学习是指系统识别并应用在先前领域/任务中学习的知识和技能到新领域/任务的能力,是机器学习的主要类型之一。一般来说,迁移学习通常用于寻找现有知识和新知识之间的相似之处,然后利用现有知识学习新知识[50]。根据学习方法,迁移学习可分为基于实例的迁移、基于特征的迁移和基于共享参数的迁移。根据细胞类型的不同,白血病有各种亚型,但它们都是造血干细胞的恶性克隆,影响正常的生理机制。这里,我们采用了基于共享参数的迁移学习,通过使用在具有足够样本的髓性白血病磷酸化位点数据集上训练的深度学习预模型,以便训练T细胞和淋巴细胞白血病相关的磷酸化位点预测模型。我们的CNN架构的预模型如图7所示。输入是肽的原始序列。卷积层中滤波器的数量由模型的优化结果决定。在卷积层之后,校正的线性单元用于输出高于阈值的滤波扫描结果。最大池化应用于池化图层,通过计算区域内要素的最大值来减少方差并增加平移不变性。所有汇集的结果被合并到一个向量中,输入到完全连接的层中,并对向量进行批处理。为了避免过度拟合,在完全连接的层之后使用了一个脱落层。最后,使用sigmoid函数预测输出层中磷酸化位点的概率。这里我们用S dataset作为例子来说明CNN架构是如何工作的。该网络接受141个氨基酸的蛋白质特征作为输入。第一卷积层在字典编码矩阵上用20 × 9滤波器执行50次卷积,产生50个大小为1 × 133的特征图。第二个池化图层使用最大值对每个要素地图执行1 × 2空间池化,生成50个大小为1 × 66的要素地图。通过展平,所有的汇集结果被连接在一起成为一个向量。

3.3.传统的机器学习方法

五种传统的机器学习方法被用来与我们的新CNN模型进行比较,包括RF、XGB、NB、KNN和SVM。由Vapnik [51]提出的SVM被认为是可用的最精确的工具之一。SVM的基本思想是找到一个超平面,该超平面以最大的间隔分离不同组的特征向量。SVM选择了核技巧,将数据投射到一个更高维的空间,在那里数据可以线性分离。NB是一种统计分类方法,是一类利用概率统计的知识进行分类的算法[52]。KNN的核心思想是根据训练集中样本的分类,计算测试集中的样本与训练集中所有样本之间的距离,根据设定的K值选择与训练样本最接近的前K个测试样本的结果,结果中大部分训练样本所在的类别就是这个测试样本的类别[53]。RF是通过在训练时构建大量决策树并输出单个树的类的模式来操作的[54]。该方法将bagging思想和特征的随机选择结合起来,以建立一个变化受控的决策树集合[55]。XGBoost是一种基于CART分类器的集成学习方法[56]。与为每个决策树分配相同投票权重的随机森林不同,XGBoost算法中下一个决策树的生成与上一个决策树的训练和预测相关联(通过为上一轮决策树训练中精度较低的样本分配较高的学习权重,以提高模型精度)。

4.结论

研究表明,许多疾病与异常磷酸化密切相关。因此,磷酸化位点的大规模鉴定在疾病治疗和药物设计中具有潜在的应用。但是现有的针对磷酸化位点的湿式实验室技术既昂贵又耗时。因此,计算算法可以有效地加速未知磷酸化位点的注释。许多基于机器学习的方法已经被用于磷酸化位点的预测。然而,没有一种方法专注于特定疾病相关的磷酸化位点预测。我们知道疾病的发病机制具有特异性,因此我们分析了三种白血病亚型,实现了白血病相关磷酸化位点的有效计算预测,从而为预测潜在磷酸化位点和白血病治疗提供参考信息。当使用机器学习方法解决生物序列预测问题时,我们通常面临选择合适的机器学习算法、提取有效特征和进行合理优化的挑战。特别是特征提取是决定预测性能的关键步骤。作为一种前沿的机器学习方法,深度学习具有从原始序列中自动发现磷酸化模式的复杂表达的能力,因此它为改善白血病相关磷酸化位点预测提供了一个强有力的工具。本文提出了一种新的基于迁移学习的深度细胞神经网络,用于从蛋白质一级序列中预测白血病相关磷酸化位点。针对三种类型的白血病,我们首先分析了具有白血病相关磷酸化位点的磷酸化蛋白的基因通路,揭示了这些基因的通路主要与细胞形态变化有关,特别是WP3888 (VEGFA-VEGFR2信号通路)可能在白血病的进展中起重要作用。对三种不同类型白血病中磷酸化蛋白的分布分析表明,它们之间很少有共享蛋白,因此为每种特定类型的白血病构建预测模型具有现实意义。

对髓系白血病所有磷酸化位点的K-means聚类分析揭示了样本间明显的变异性,因此在随机划分训练集和测试集的过程中,应部分提取所有聚类中的样本,以保证数据分布的完整性。

同时,在阳性和阴性样品之间分别对所有、S、T和Y位点进行位置特异性保守性差异分析,并且CNN揭示的氨基酸基序与已知基序具有非常高的相似性,这验证了CNN自动提取序列特征信息的可行性。

基于骨髓相关磷酸化位点的最大S/T/Y数据集,获得了S、T和Y模型的最佳肽长度,它们分别为141、41和121。通过与其他五种机器学习方法的比较,CNN在100次测试中表现最佳。通过10倍交叉验证,获得了S/T/Y磷酸化位点的最终模型,并给出了S、T和Y的AUC值分别为0.8784、0.8328和0.7716。最后,转换最终S/T/Y骨髓相关模型的最佳参数,以构建淋巴细胞和T细胞小数据集的预测模型。令人满意的预测结果证明,基于迁移学习的细胞神经网络是白血病相关磷酸化位点预测的有效策略。我们预计,随着新发现的白血病相关磷酸化位点数据的积累,本工作构建的模型可以得到进一步验证,并将成为识别白血病相关磷酸化位点的有用补充工具。

论文解读:基于迁移移学习的深卷积神经网络,用于从蛋白质主要序列预测与白血病相关的磷酸化位点相关推荐

  1. ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  2. CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  3. 论文解读 | 基于递归联合注意力的句子匹配模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  4. ACL 2018论文解读 | 基于路径的实体图关系抽取模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. 基于迁移深度学习的雷达信号分选识别

    基于迁移深度学习的雷达信号分选识别 人工智能技术与咨询 来源:<软件学报> ,作者王功明等 摘要: 针对当前雷达信号分选识别算法普遍存在的低信噪比下识别能力差.特征参数提取困难.分类器模型 ...

  6. 深度学习教程(10) | 卷积神经网络解读(吴恩达·完整版)

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...

  7. [人工智能-深度学习-24]:卷积神经网络CNN - CS231n解读 - 卷积神经网络基本层级

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:[人工智能-深度学习-23]:卷积神经网络CNN - CS231n解读 - 卷积神经网络基本层级_ ...

  8. 深度学习(十九)基于空间金字塔池化的卷积神经网络物体检测-ECCV 2014

    基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文 ...

  9. 深度学习(十九)基于空间金字塔池化的卷积神经网络物体检测

    基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文 ...

最新文章

  1. sqlmap 常用操作
  2. Elasticsearch 如何把SQL转换为DSL
  3. 洛谷 P4245 【模板】MTT
  4. 工程制图 (机件常用的基本表示法)
  5. C++之整理一些最近看书的收获
  6. 论文浅尝 - 计算机工程 | 知识图谱可视化查询技术综述
  7. JeecgBoot 单体升级微服务快速方案(十分钟搞定)
  8. 【ES】ES 好文档积累
  9. win10 + bazel-0.20.0 + tensorflow-1.13.1 编译tensorflow GPU版本的C++库
  10. 狸猫换太子--删除无头单链表中结点
  11. Delphi7 如何调整背景色为黑色容易护眼
  12. 详解谷歌VR平台Daydream:有手柄就是不一样
  13. 2022年最该收藏的8个数据分析模型
  14. Android 最全 BATJ 大厂面试题整理!
  15. 【无人机】无刷电调学习之路
  16. java 判断简体 繁体字_java判定字符是英文,中文简体,还是繁体
  17. 电子与计算机工程陈晟老师,陈晟老师课堂:数学成绩好,这七个大学专业适合报考!...
  18. 国产开源数据库:腾讯云TBase在分布式HTAP领域的探索与实践
  19. 【mysql】ACID靠什么保证的?
  20. pandas一行代码绘制26种美图

热门文章

  1. docker-comose搭建openldap + svn + apache
  2. Fiddler大师之路系列(五)
  3. Ubuntu编译安装sqlite3库
  4. 【内网安全-CS】Cobalt Strike启动运行上线方法插件
  5. Vue select的使用以及select设置默认选中,element select联动不能选择问题
  6. 【CTA03】期货套利策略
  7. 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊
  8. oracle运维积累
  9. adprw指令教程_三菱adprw指令图文详解
  10. 从事数据科学Python和R语言学哪个好?