论文解读《PScL-HDeep:基于图像的蛋白质利用集成在人体组织中的亚细胞预测定位》

期刊名: BRIEFINGS IN BIOINFORMATICS
期刊名缩写:BRIEF BIOINFORM
国际刊号:1467-5463
2021年影响因子/JCR分区:11.622/Q2
中科院分区
大类:生物 2区[Top]
小类:数学与计算生物学 1区|生化研究方法 1区
代码链接:代码链接

一、摘要

1、蛋白质亚细胞定位在表征蛋白质的功能和理解各种细胞过程中起着至关重要的作用。准确识别蛋白质亚细胞位置是一项富有挑战性的任务。人们提出了许多计算方法来预测蛋白质的亚细胞位置。然而,现有的方法在总体精度、时间消耗和泛化能力方面都存在一定的局限性。
2、为了解决这些问题,在本研究中,作者开发了一种新的基于人类蛋白图谱(HPA)数据的计算方法,称为PScL-HDeep,用于基于图像的蛋白质在人体组织中的亚细胞位置预测。作者从图像的不同角度提取不同的手工和深度学习(通过使用预先训练的深度学习模型)特征

3、采用逐步判别分析(SDA)算法。

**逐步判别法(SDA)**的基本思想是:逐步引入变量,每次引入一个"最重要"的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新引入变量而变不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。
按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。

4、获得信息量更大的特征子集,提出了一种基于支持向量机的递归特征消除与相关偏差降低特征选择算法
support vector machine–based recursive feature elimination with correlation bias reduction (SVM-RFE + CBR)

引言
1、在细胞水平上,生物生殖系统有许多细胞,其中含有数千个蛋白质,每个细胞是最小的生命单位,而蛋白质是细胞中最基本的生物分子。
因此,了解和探索这些蛋白质在细胞水平上的自然功能是蛋白质组学研究的基础任务。人们普遍认为,蛋白质的特殊功能与其相应的细胞间隔密切相关。正常的蛋白质功能运作,蛋白质需要在正确的时间和正确的位置与相应的相互作用分子相互作用。。因此,研究蛋白质亚细胞定位特征可以为了解生物分子相互作用机制、识别药物发现和基因组注释提供重要线索。

传统的湿法实验既昂贵又耗时,而且跟不上新发现的蛋白质数量的增加。计算模型作为对耗时、昂贵的实验方法的有益补充,正成为生物医学研究的主要焦点。这些计算模型的性能在不断提高,有些模型甚至超过了人类专家。

湿法实验:是基于实验药剂的传统实验,即细胞培养

目前,有许多自动化的计算系统已经部署,以准确预测蛋白质亚细胞位置。蛋白质数据的表示方式,可分为基于序列的或基于图像的。
这两种分类(基于序列的和基于图像的)都基于两步框架的思想:
1、合适的特征,2、标记决策

通过现代测序技术,基于序列的方法可以应用于以一维氨基酸序列表示的蛋白质。目前大多数机器学习方法可以处理基于向量的样本,而不是直接处理序列,这使得用离散模型或向量表示蛋白质序列,同时保留序列信息是必要的。采用位置特异性评分矩阵(PSSM)和伪氨基酸组成等多种序列编码技术。此后,这种序列编码方法在生物信息学和计算生物学领域得到了广泛的应用。

位置特异性评分矩阵(PSSM):可以反映出每个位置上不同碱基出现的频率,矩阵每一列表示相应位置上碱基出现的频率。
构造PSSM的第一步:通过计算每个位置上每个碱基出现的次数来创建一个基本频率矩阵(PFM)
第二步:标准化,用每个位置的原核苷酸计数除以序列数。构建位置频率矩阵
给定一个长度为l的序列集合X (N),
第三步:构建位置比重矩阵

另一方面,基于序列的方法难以检测蛋白质易位,利用基于生物图像的方法来预测蛋白质亚细胞位置。

虽然卷积神经网络已经成功地应用于解决各种生物信息学问题,但目前使用卷积神经网络作为特征提取器的研究还很少
此外,以适当的方式融合多种特征已被证明是提高蛋白质亚细胞定位预测的有效方法。一些研究使用逐步识别分析(SDA)或mRMR选择最优特征子集。然而,所选特征的有效性需要通过训练和测试分类模型来检验。

基于生物图像的蛋白质亚细胞定位预测方法大多没有采用训练和测试分类器的思想来选择最优特征集。在本研究中,作者开发了一个新的计算框架来解决上述现有方法的不足。

作者从Human Protein Atlas (HPA)(http://www.proteinatlas.org)数据库中构建了两个数据集,分别是基准训练数据集和独立测试数据集
作者提出了一种两层特征选择策略,
1、第一层采用SDA技术对单个特征集进行选择,
2、第二层采用support vector machine–based recursive feature elimination with correlation bias reduction(SVM-RFE + CBR)技术对融合的特征集进行选择

然后进行了10个折叠交叉验证和独立测试,检验预测模型(即PScl - HDeep)。
10折交叉验证(10-fold Cross Validation):
使用这种方法,将数据集随机分成10份,使用其中9份进行训练而将另外1份用作测试。该过程可以重复10次,每次使用的测试数据不同。

HPA:HPA全称是Human Protein Atlas, 利用转录组学和蛋白质组学技术,从RNA和蛋白水平研究人类不同组织和器官中的蛋白表达情况。Human Protein Atlas 数据库,简称HPA数据库,它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息,并免费提供公众查询。创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体,用免疫组化的技术,检查每一种蛋白质在48种人类正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织,保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。

二、数据集和算法

2.1 数据集

在统计机器学习中,选择合适的数据集是一个重要的步骤,因为它处理了从数据中学习判别规则的问题。人类蛋白质图谱(http://www.proteinatlas.org)数据库包含免疫组化(IHC)显微镜生物图像,是人类蛋白质组数据的丰富来源
因此,在本研究中,作者从HPA数据库(version 19)中根据可信度评分(仅增强、支持和批准)和验证评分(如IH和WB验证评分)两方面的置信度构建了基准生物图像数据集。有关可靠性和验证评分的详细信息,请参阅HPA网站。

Cytoplasm:细胞质 endoplasmic reticulum:内质网
golgi apparatus:高尔基氏体;内网器 lysosome:溶酶体
mitochondrion:线粒体 nucleus:原子核 vesicles:囊泡

基准训练数据集:2876张高验证评分、增强评分和支持评分的免疫组化图像。采集的2876张生物图像均出现在7个主要亚细胞位置之一:细胞质(Cytopl.)、内质网(ER .)、高尔基体(Gol.)、线粒体(Mito.)、溶酶体(Lyso.)、核(Nucl.)和小泡(Vesi.)。表1提供了基准训练数据集的统计摘要。

2.2 图像分割

由于本研究的主要重点是分析蛋白质,因此有必要通过一些颜色分离程序将蛋白质从DNA中分离出来。作者采用线性光谱分离(林)方案,因为紫色和棕色两种颜色很容易分离。
此外,每幅HPA图像(Human Protein Atlas 数据库)也是由许多细胞组成的,将这些细胞分离到感兴趣的区域是一项非常具有挑战性的任务。幸运的是,**多细胞蛋白图像的使用提供了很好的分类精度。**受之前研究的启发,作者在本研究中也使用了多细胞蛋白图像。

2.3 特征提取

特征提取是构建精确分类模型的关键步骤之一。分类精度依赖于模型训练所用特征的选择。亚细胞位置特征是描述整幅图像的全局特征向量。这些特征在生物信息学领域被证明是有用的。然而,它们忽略了局部图像特征。因此,全局特征描述子和局部特征描述子可以一起表示图像的整体。在本研究中,作者还将这两种策略与深度学习特征相结合,形成分类任务的超向量。

2.4 深度学习的特性

深度学习算法是分层组织的。
目前已有不同的深度学习架构,如卷积神经网络(CNN)、递归神经网络(RNN)和深度信念网(DBN)。作者考虑了预训练的CNN,因为使用预训练网络的优势是CNN不需要训练(这是一个计算成本非常高的阶段)。一些基于生物图像的研究已经成功地将vgg19应用于各种数据集上作为特征提取器。原因是vgg19特别有用,因为它在输入图像中特定内容的检测或定位方面的特征表示。此外,它还可以安装带有较小接受域(3 × 3)的卷积滤波器,以增加深度级别。
因此,在作者的研究中,作者也使用了预训练的vgg19进行迁移学习。作者提取了更深层次的特征图,用来作者设置中的特征向量。


为了有效地利用CNN,需要考虑之前的一些步骤,包括
作者将图像的大小调整为224*224;
最后,将输入图像输入到预训练的VGG- 19中,从第一个全连接层提取特征图,尺寸为4096。作者使用逐步判别法(SDA)来降低特征向量的维数,同时保持特征的唯一特征。作者将这些深度学习特征命名为deep。

2.5 分类器(SVM-RFE + CBR)

分类器的性能主要取决于输入特征集。为了作者的预测算法选择最优的集合,support vector machine–based recursive feature elimination with correlation bias reduction (SVM-RFE + CBR)中个体子集串行连接得到的集成特征集

已有的许多研究使用SVM-RFE来解决多类分类问题;然而,当特征集具有高度相关的特征时,SVM-RFE对这些特征的排序标准会有偏差。SVM-RFE + CBR采用相关偏差降低策略来降低SVM-RFE中的相关偏差。

作者采用了**一对一(one-versus-one, OVO)**策略,作者根据SVM-RFE + CBR排序特征选择最佳特征子集。

2.6 特征选择

(1)SVM-RFE + CBR算法从两类问题扩展到多类问题,采用“一对一”OVO(one-versus-one, OVO)策略;
(2)降低计算模型对蛋白质亚细胞定位预测的时间复杂度和预测能力,作者采用了SDA + SVM-RFE + CBR的两层特征选择策略

2.7 预测算法

one-versus-all (OVA)和one-versus-one(OVO)。从那时起,它被广泛应用于解决生物信息学中的多种问题,包括蛋白质亚细胞定位预测。
在本研究中,作者也利用LIBSVM工具箱来构造分类器来实现SVM。以RBF为核函数,采用10次交叉验证和网格搜索优化方法对其两参数正则化C = 27和核宽γ = 2 6进行优化。作者采用了OVO方法进行多类分类。
LIBSVM:LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用,可以解决 分类问题(包括C- SVC、n - SVC )、 回归问题(包括e - SVR、n - SVR )以及 分布估计(one-class-SVM )等问题,提供了 线性、多项式、径向基和S形函数四种常用的核函数供选择(也可以自定义核函数),可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。

2.8 PScL-HDeep的架构

PScL-HDeep首先利用线性光谱分离程序(分割阶段)将图像分解为DNA通道和蛋白质通道,PScL-HDeep对提取的特征采用了两层特征选择技术。

三、 结果分析

3.1 个体特征和不同分类器的性能评价

作者利用特征,捕获了IHC图像的全局和局部特征。作者在每个手工制作的特性集上训练模型,以验证上面讨论的特性。
这些特征集在RF、SVMLNR和SVM-RBF上的分类准确率如下图所示

DNA:真核生物与原核生物的显著不同是有膜包裹的细胞器核。由于人类属于前者,每一个生物图像都会有DNA染色。以往的研究表明,DNA空间分布对提高分类精度有价值。因此,在这里我们也提取了DNA -蛋白重叠特征
Har:在整合了之前的26个Haralick特征后,我们得到
每个图像的836维Haralick纹理特征,称为Har。
LBP:局部二值模式LBP就是这样一种简单而高效的局部特征
CLBP:完整局部二值模式(complete Local Binary Pattern, CLBP)计算三个分量来表示局部区域:中心像素、不同符号和差异幅值。
RICLBP:RICLBP是CoALBP的改进版本,它通过在每个CLBP对上附加一个旋转不变量标签来保证旋转不变性。HOG:(Histogram of oriented gradient, HOG)将图像分成小窗口/单元,每个窗口的梯度直方图方向都是在窗口的像素上编译的。然后评估每个窗口的直方图,最后通过连接这些直方图获得描述符。HOG是在单一比例单元水平的密集网格中计算的,实验中,我们使用窗口大小为5X6,对目标蛋白图像提取出一个最终的特征向量,其维数为270。
AHP:在这里,自适应混合模式(AHP)被专门用于克服LBP的缺点:对准均匀区域噪声的敏感性,以及对使用精确值的量化阈值引起的目标输入图像中的小变化的敏感性。

3.2 通过SDA选择最优特征,提高预测性能

通过特征选择步骤得到的特征子集也可以显著降低时间复杂度。这就是为什么在模式识别、机器学习和数据挖掘等许多领域,特征选择通常被作为数据预处理的一个战略性步骤来执行。

使用SDA选择特征前后的准确率指标柱状图

3.3 集成手工制作和深度学习功能

(1)第一种组合:tradFus1 = Har + LBP + CLBP + RICLBP + LET + AHP
(2)第二种组合:tradFus2 = DNA + Har + LBP + CLBP + RICLBP + LET+ HOG + AHP

这里+号表示简单的序列组合。然后在SVM-RBF和SVM-LNR分类器上测试每个多视图特征集。

**AUC:**在统计和机器学习中,常常用AUC来评估二分类模型的性能。AUC的全称是 area under the curve,即曲线下的面积。
stdAUC是AUC的标准差,而准确率是正确预测的标签数相对于预测的标签总数的百分比。

3.4 PScL-HDeep与现有预测器的性能比较

Yang et al. , SC-PSorter和SAE-RF提出的方法比较。

与Yang等人现有的方法进行了比较。与SC-PSorter相比,PScL-HDeep的准确率分别提高了8.33和5.5%,平均auc分别提高了1.57和1.16%。该方法的stdAUC也分别降低了1.83和1.47%。

3.5 与独立测试数据集上现有预测器的性能比较

四、 结论

PScL-HDeep算法的几个重要属性有助于提高算法的性能,包括谨慎选择合适的训练集、嵌入深度特征、更有甄别性的特征选择和警惕性的预测模型设计。
(1)生物图像数据进行蛋白质亚细胞定位的多类预测。
(2) 使用SDA特征选择技术
(3)将SDA得到的所有最优特征空间结合起来
(4) 将整合后的特征输入到SVM-RFE + CBR中。通过10倍交叉验证和独立测试评估分类性能。

通过整合不同的特征集,一些策略已经被证明是有效的,如核组合,加权特征组合等。虽然PScL-HDeep取得了很有前景的成果,但在今后的工作中,作者计划采用除串行组合外的组合策略进一步改进PScL-HDeep。

论文解读《PScL-HDeep:基于图像的蛋白质利用集成在人体组织中的亚细胞预测定位》相关推荐

  1. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  2. CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...

  3. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  4. FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍

    自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  7. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  8. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  9. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

  10. 论文解读:《功能基因组学transformer模型的可解释性》

    论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

最新文章

  1. WPF窗口长时间无人操作鼠标自动隐藏
  2. 从一个数组中找出 N 个数,其和为 M 的所有可能--最 nice 的解法
  3. CCIE-LAB-第六篇-IPV6+SLLAC
  4. Python装饰器总结,带你几步跨越此坑!
  5. Pycharm虚拟环境的使用
  6. 龙格库塔法和欧拉法求解微分方程的比较
  7. Vue 使用 v-show 失效
  8. Eclipse用法和技巧
  9. centos配置网络
  10. 凭证 金蝶_5分钟学会金蝶软件凭证录入!
  11. 【JavaBigDecimal练习】利用BigDecimal精确计算欧拉数
  12. mysql 不会丢失数据吗_讨论MySQL丢失数据的几种情况
  13. 蓝桥杯 小朋友崇拜圈 C语言
  14. 沉淀自己(此文无价)
  15. 肖邦圆舞曲14首 个人赏析
  16. 管理学30大经典理论
  17. 现有一些开源ESB总线的比較
  18. 新手卖家如何利用Listing在亚马逊站稳脚跟?
  19. Python学习笔记Task07(异常)
  20. TLA7-EVM开发板硬件说明(3)

热门文章

  1. 2023年AP课程商科学科考试报名开启,AP社会考生报名火热咨询中
  2. Android Studio鼠标不能拖动文件drag-n-drop
  3. 使用正则表达式匹配中括号里的内容
  4. java处理图片类库 Thumbnails 学习
  5. HCIE-Cloud Computing LAB备考第三步:故障排查--第二题:FusionAccess
  6. c语言剪裁矩形,OpenCV – 使用C从图像中裁剪非矩形区域
  7. 海天讲座(三)最优传输理论
  8. 《lwip学习1》-数据流篇
  9. 服务器维护系列——VNC没有反应了怎么办?
  10. 服务器 被 上传 垃圾文件,Django:上传的文件没有被垃圾回收,导致内存问题