论文解读:《XG‑ac4C: identification of N4‑acetylcytidine(ac4C)in mRNA using eXtreme gradient boosting with electron‑ion interaction pseudopotentials》

  • 1.文章概括
  • 2.介绍
  • 3.方法
    • 3.1 数据集
    • 3.2 特征编码
    • 3.3 XGBoost分类器。
  • 4.结果与讨论
    • 4.1 与其他机器学习分类器的比较
    • 4.2 与现有方法的比较
    • 4.3 功能重要性及其贡献
    • 4.4 构建服务器
  • 5.结论

文章地址:https://www.nature.com/articles/s41598-020-77824-2
DOI: https://doi.org/10.1038/s41598-020-77824-2
数据集:http://rnanut.net/paces/dataset.zip
服务器:http://nsclbio.jbnu.ac.kr/tools/xgac4c/

1.文章概括

N4-乙酰胞苷(ac4C)是mRNA的转录后修饰,在mRNA稳定和调节中起主要作用。 ac4C修饰mRNA的工作机制仍不清楚,传统的实验室实验既费时又昂贵。作者提出了一种基于极限梯度提升分类器的XG‑ac4C机器学习模型,用于ac4C站点的识别。 XG‑ac4C模型使用了ac4C位点中核苷酸的三核苷酸的电子离子相互作用假电位和电子离子相互作用假电位的组合。此外,使用Shapley加性解释和局部可解释的模型不可知性解释来理解特征的重要性及其对最终预测结果的贡献。获得的结果表明,XG‑ac4C优于现有的最新方法。更详细地说,该模型在交叉验证和独立测试中分别将PRC提高了9.4%和9.6%。

2.介绍

已鉴定出160多种不同的RNA修饰。其中,N4-乙酰胞苷(ac4C)具有调节潜力。它发生在胞苷上,是真核mRNA中唯一的乙酰化修饰。 ac4C在调节mRNA翻译和促进翻译效率中的作用是由Arango等人建立的。对mRNA半衰期的分析表明,乙酰化水平与目标mRNA的稳定性呈正相关。同样,当存在于胞苷3的摆动位点中时,ac4C增强翻译。此外,ac4C与几种人类疾病的进展,预后和发展相关。最近,Arango等人报道了NAT10乙酰转移酶作为一种mRNA修饰参与N4-乙酰胞苷(ac4C)的催化作用。 ac4C的整个转录组图谱揭示了编码序列内的大量乙酰化区域。 NAT10突变会降低在映射的mRNA位置上对ac4C的检测,并与目标mRNA的下调相关。因此,乙酰化残基扩大了mRNA修饰的范围,从而确立了ac4C在调节mRNA翻译中的作用。
作者提出了基于极限梯度增强(XGboost)方法的计算模型,以识别mRNA中的ac4C修饰位点。利用三核苷酸的核苷酸化学性质(NCP),核苷酸密度(DN),Kmer,one-hot编码,电子离子相互作用假电位(EIIP)和电子离子相互作用假电位(PseEIIP)表示基准中的mRNA序列数据集。采用了各种评估指标来评估XG-ac4C,即SN、SP、ACC 、MCC。此外,我们将5倍交叉验证与评估指标一起应用,以评估XG-ac4C的POC和PRC。提出的模型构建了一个用户友好的Web服务器,该服务器可从http://nsclbio.jbnu.ac.kr/tools/xgac4c/免费访问。提出的模型XG-ac4C如下图所示。

3.方法

3.1 数据集

从http://www.rnanut.net/paces/获得,训练集中有1160个阳性样品,10855个阴性样品,测试集中有469个阳性样品,4343个阴性样品。五倍交叉验证:训练数据集被分为五个部分,每个部分包含232个阳性样本和2171个阴性样本。将四部分用于训练,将剩余的一部分用于测试,最终表现是所有五次结果的平均值。

3.2 特征编码

one-hot编码:输入的RNA序列使用单发技术编码,其中A由(1,0,0,0)编码,T由(0,1,0,0)编码,G由(0, 0,1,0),而C由(0,0,0,1)编码。因此,基准数据集中的每个输入序列都由长度为415×4 = 1660的矢量编码。
核苷酸化学性质(Nucleotide chemical property, NCP):基于环结构,官能团和氢键,mRNA序列的核苷酸可分为三类。C和T具有单环结构,而A和G具有两环结构。 A和C属于氨基,而G和T属于酮基。和A和T形成强氢键,而C和G形成弱氢键。根据这些化学性质的枚举,每个mRNA序列均由3维向量(x,y,z)编码,其中x,y和z如下所示:

其中xi,yi和zi表示位置i处核苷酸n的NCP值。因此,来自基准数据集的每个输入序列都由长度为415×3 = 1245的矢量编码。
核苷酸密度(Nucleotide density, ND):核苷酸密度提供有关核苷酸频率的信息以及mRNA序列中的核苷酸位置信息。 ND已被用于各种研究中。核苷酸nj在位置j的ND di表示为:

其中Ni是从第一个位置到第i个位置的第i个前缀子序列的长度,l是序列长度。因此,来自基准数据集的每个输入序列均由长度为415的矢量编码。通常,我们将NCP与ND连接起来。因此,所得向量的维数为1245 + 415 = 1660。
K-mer: K-mer是指对长度为k的所有可能子序列的频率进行计算。它已被用于解决各种问题。在本文中,作者使用k = 1、2和3,其中1-mer代表单核苷酸(SN),2-mer代表二核苷酸(DN),而3-mer代表三核苷酸(TN)。因此,来自基准数据集的每个输入序列均由长度为4 + 16 + 64 = 84的向量编码。
EIIP + PseEIIP:在EIIP中,mRNA序列的每个核苷酸均由与自由电子能量的分布相对应的数值编码。 A=0.1260,C=0.1340,G=0.0806,T=0.1335。此外,通过获取每个核苷酸的平均EIIP值,将伪EIIP(PseEIIP)应用于mRNA序列的三核苷酸。使用PseEIIP通过长度为64的载体将mRNA序列编码为:

其中fxyz是第i个三核苷酸的归一化频率,EIIPxyz = EIIPx + EIIPy + EIIPz,x,y,z∈{A,C,G,T}。 PseEIIP特征向量的结果维为64.因此,基准数据集的每个输入序列均由长度为415 + 64 = 479的向量编码.415维向量代表输入序列的EIIP值和64维向量表示输入序列的PseEIIP值。

3.3 XGBoost分类器。

极限梯度提升(XGboost)是最可靠的机器学习分类器之一,已广泛应用于生物信息学问题。它基于一个树模型,该树模型使用提升算法进行分类。为了降低模型的复杂性和控制过度拟合,将正则项添加到成本函数中。此外,XGboost算法支持并行计算功能,从而提高了计算速度。另一方面,它是一个高度灵活的系统,其中用户可以自定义优化目标和评估标准。此外,XGboost可以轻松处理不平衡的数据集。因此,作者提出使用XGboost算法来解决与不平衡数据集相关的分类问题。应用了网格搜索方法来识别XGboost中的最佳超参数。最佳超参数值如表3所示。

4.结果与讨论

4.1 与其他机器学习分类器的比较


4.2 与现有方法的比较

4.3 功能重要性及其贡献

讨论每个功能对模型结果的贡献。为了理解每个功能的重要性和贡献,我们采用了两种技术:Shapley可加性解释(SHAP)和局部可解释模型不可知性解释(LIME)。 SHAP利用本地解释和博弈论,适合于机器学习模型的解释。 XGboost分类器根据信息获取,覆盖范围或权重,而SHAP值是一种局部精确的加法,表明大多数全局特征对于分类的重要性。图4显示了具有局部和全局EIIP和PseEIIP的训练模型中最重要的20个最重要特征。较低的特征值显示为蓝色,而较高的特征值显示为红色。预测的ac4C位点与Gse的PseEIIP值的较高频率密切相关,CGG,CGG,GGC和CCC是丰富的核苷酸。另一方面,在未富集的核苷酸位置N198和N216处EIIP的较低频率与该序列为ac4C位点的较低预测概率相关。为了进一步了解这些特征对预测的影响,作者绘制了图5a的正序和图5b的负序的LIME输出。 LIME提供了比SHAP更多的细节,因为它指定了允许给定特征发挥其影响力的一系列特征值。在图5中,绿色条显示支持ac4C站点分类的加权特征,而红色条显示支持非ac4C站点分类的加权特征。这些结果与SHAP结果一致。

4.4 构建服务器

建立了一个用户友好且可免费访问的Web服务器:http://nsclbio.jbnu.ac.kr/tools/xgac4c/

5.结论

准确鉴定mRNA的转录后修饰,例如乙酰胞嘧啶(ac4C),对于加深我们对各种生物学机制的理解至关重要。在这项工作中,作者开发了一种有效且强大的机器学习模型,该模型可以识别乙酰化的mRNA位点。此外,提出的模型利用EIIP功能来准确预测ac4C站点。所提出的模型XG-ac4C在交叉验证和独立测试方面均优于最新方法。此外,我们使用SHAP和LIME解释器技术可视化了XG-ac4C中功能的重要性。最后,XG-ac4C模型可用于促进生物学研究的许多领域。因此,我们开发了一个可免费访问的Web服务器。

论文解读:《XG‑ac4C:使用带有电子离子相互作用假电位的eXtreme梯度增强技术鉴定mRNA中的N4-乙酰胞苷(ac4C)》相关推荐

  1. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  2. CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...

  3. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  4. FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍

    自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  7. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  8. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  9. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

  10. 论文解读:《功能基因组学transformer模型的可解释性》

    论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

最新文章

  1. MegaCli常用命令详细介绍
  2. 【错误记录】jar 执行错误 ( java.lang.UnsupportedClassVersionError: Unsupported major.minor version 52.0 )
  3. how can we make them work together efficiently?
  4. Spark学习笔记——在集群上运行Spark
  5. 解决 dockerfile 构建镜像报错: [WARNING]: Empty continuation lines will become errors in a future release.
  6. 虚拟机网络无法连接问题解决(超简单)
  7. ReportViewer教程(15)-矩阵报表-6
  8. 哲学家都在干些什么_哲学家们都干了些什么——哲学是什么
  9. HDU2022 海选女主角【入门】
  10. Sass 内置函数总结
  11. java生成润乾报表,润乾报表----模板报表制作
  12. cadsee plus看图纸 7.2.0.1
  13. 【前沿技术了解】-- 云原生技术与架构
  14. 根据图片地址上传图片
  15. 做Java开发如何月薪达到两万,需要什么技术水平
  16. Introduction to NMOS and PMOS Transistors
  17. Android之SQLite数据库及SQLiteStudio工具的使用
  18. C/C++ 延时函数 (标准库)
  19. “黄金薄膜” CPI膜 —— 折叠屏手机核心材料
  20. 二次型化标准形的三种方法

热门文章

  1. 音频和视频批量合并,及格式转换
  2. YOLOv5导出onnx、TrensorRT部署(LINUX)
  3. Android通过DownloadManager实现App的版本更新功能
  4. php 判断是否是机器人,php实现判断访问来路是否为搜索引擎机器人的方法_PHP
  5. 浅谈getaddrinfo
  6. Web网页基于html、CSS设计——“爱家居”素材
  7. 高程计算机编程序,卡西欧CASIO系列编程计算器在公路测量中的应用.doc
  8. 修改浏览器User-Agent
  9. 《东周列国志》第三十回 秦晋大战龙门山 穆姬登台要大赦
  10. 四元数姿态解算详细步骤