6mA-Pred:基于深度学习的DNA n6 -甲基腺嘌呤位点识别

  • 摘 要
  • 一、介绍
  • 二、材料和方法
    • 2.1 数据集
    • 2.2 特征编码和分类算法
  • 三、 绩效评估
  • 四、 不同数据集的性能比较
  • 总结

数据可用性:
关于数据的可得性,提供了下列资料:
原始数据: link.
代码: link.
一个用于预测6mA站点的Web服务器:link
DOI 10.7717/peerj.10813

摘 要

随着6mA修饰位点数据的积累,越来越多的学者开始关注6mA位点的识别。尽管人们认识到6mA位点的重要性,但对其进行鉴定的方法仍然缺乏,现有的大多数方法都是针对单个物种进行鉴定。本研究旨在建立一种适用于多种植物的鉴定方法。在前人研究的基础上,我们提出了一种6mA位点识别方法。实验证明,本文提出的6mA- pred方法可以有效地鉴定水稻、小家鼠和人类等类群基因中的6mA位点。一系列实验结果表明,6mA-Pred是一种很好的方法。我们提供了研究中使用的源代码,可以从 http://39.100.246.211:5004/6mA_Pred/获得。


一、介绍

DNA修饰位点在多种生物过程中起着至关重要的作用,越来越受到人们的关注。甲基化仍然是表观遗传学的一个热点话题,5mC甲基化已被广泛研究。随着测序技术的进步,6mA甲基化逐渐受到越来越多的关注。6mA甲基化不仅影响基因表达,还调控动植物的发育。许多疾病,包括癌症,都与6mA甲基化有关。随着6mA甲基化相关研究的进展,收集了大量的数据。然而,目前还缺乏有效的6mA位点识别方法。
修饰位点的识别方法一直是生物信息学研究的热点。研究了多种方法,取得了良好的效果。==虽然对4mC 和5mC的研究已经成熟,但对6mA修饰位点的识别研究才刚刚开始。采用i6mA-Pred计算方法对水稻基因组中6mA修饰位点进行了高精度的鉴定。目前已经提出了几种鉴定水稻基因组中6mA位点的方法,如MM-6mAPred、iDNA-6mA-rice、SDM6A 、i6mA-DNCP 和SNNRice6mA 。此外,鉴别小家鼠和人类6mA位点的方法也逐渐出现,如iDNA6mA-PseKNC 、csDMA 、SICD6mA和6mA- finder ==。一些数据集是公开可用的,许多理想的特征和模型已经被提出。特征算法NCP和one-hot、特征融合和深度学习方法的应用大大加快了6ma修改的位点识别。其中SVM和RF算法表现出稳定的性能,在部分数据集上表现良好。此外,Markov模型在预测水稻基因组6mA位点方面取得了良好的效果。在特征方法的应用中,大多数研究者采用多种特征融合方法,分析各种特征。总的来说,不同的方法都取得了很好的效果,为后续的研究提供了方向。
在上述研究中,大多数方法都使用了机器学习,并详细分析了不同的特征方法。有一些很好的模型使用深度学习方法,如SNNRice6mA和SICD6mA。SNNRice6mA使用CNN 来构建一个工作良好的网络。SICD6mA利用GRU实现了良好的网络结构,已广泛应用于两个物种的数据集。在本文中,通过总结以往的研究工作,我们发现LSTM+Attention可以很好地识别修饰位点,大量的实验结果表明这是一种很好的方法。
三个数据集都使用CD-HIT来消除冗余。利用CD-HIT程序排除相似度在80%以上的序列。所有阴性样本长度均为41bp,中心为A,但截至6mA,SMRT测序技术未检测到。此外,水稻数据集根据阳性样品中GAGG、AGG和AG基序的比例采集了阴性样品。小鼠数据集删除了modQV大于30的阳性样本。

二、材料和方法

2.1 数据集

许多研究的目标是在水稻中鉴定6mA位点。回顾过去2年的研究,我们发现6mA站点的数据量正在增加。我们获得了三个物种的数据集。第一个数据集是来自6mA-RicePred 的水稻数据集。该数据集首次用于i6mA-Pred,由作者提供。第二个数据集是由iDNA-PseKNC获得的Mus muscle数据集,该数据集取得了很好的效果。第三个数据集是由SICD6mA获取的人类数据集,是三个数据集中最大的一个。表1提供了每个数据集的摘要。它们的序列长度都是一样的:41 bp。这些数据集的细节在它们的源论文中提供。我们已经组织了数据集,可以从https://github.com/huangqianfei0916/6ma-rice获得。

2.2 特征编码和分类算法

One-hot编码已经被许多研究人员用于序列处理,取得了良好的结果。One-hot编码有一定的缺点。因此,我们使用Kmer而不是one-hot。Kmer的作用是帮助嵌入生成更好的词向量。我们分别对普通分词和Kmer分词进行了研究,实验结果表明Kmer分词具有较好的性能。图1显示了Kmer分词的过程。我们对k值的选择进行了检验,结果表明三个k值是最合适的。

这是6mA-Pred的结构流程图。6mA-Pred包括kmer分词和注意机制。其中,注意得分采用点积法。通过注意机制优化特征。

实验结果如图2所示。当k为3时,字典大小为64。在特征提取阶段,利用嵌入层提取特征。我们选择init方法进行实验。使用init或微调方法的效果几乎相同,而且在某些情况下,init方法更优。如果有一个优秀的预训练模型,也是一个不错的选择。特征的质量在很大程度上决定了模型的效果。嵌入是深度学习中一个非常重要的模块,word2vec是最好的嵌入方法之一。特征编码可以动态学习,深度学习可以实现一种称为finetune的二次学习方法。在本文中,我们使用了简单的初始化嵌入和Kmer分词。

通过基于不同k值的独立测试来评估6mA-Pred的性能。(A)基于鼠标数据集的不同k值的表现;(B)基于水稻数据集的不同钾值的表现;©根据人类数据集表现不同的k值。
目前用于6mA位点识别的方法大多为机器学习方法,且大多仅对单个物种有效。在对最新研究的回顾中,我们发现注意机制与6mA位点的识别有许多相似之处。此外,LSTM在处理序列问题方面也取得了优异的性能。在构建模型时,我们没有采用特别复杂的结构,模型的复杂性和效果也没有直接关系。利用嵌入层提取特征后,使用双向LSTM对序列特征进行处理。LSTM处理后得到的序列信息可以用来获得一个良好的特征向量,该特征是整个序列信息的一种表示。
LSTM的每个时间步长都有一个输出,表示到当前时间为止的序列信息。LSTM算法可以表述为:

一般来说,LSTM可以得到每个时间步长的输出,得到包含序列信息的特征。我们可以分析这些特征来获得我们期望的结果。典型的方法是将这些信息平均,或者取最后一个,然后应用完全连接的层来获得结果。很多学者在LSTM之后增加了其他层次来获得好的特征。但根据具体的应用场景和问题,这些层次的网络结构设计也有所不同。6mA-Pred将注意机制应用于LSTM的输出,在注意层之后再连接全连接层
在LSTM之后加入注意层,对LSTM的输出进行注意分析。LSTM最终输出的内部输出与前一个时间步的结果可以生成相应的注意分数。然后,将Softmax层添加到关注层中获得权重。对LSTM的输出和该权重进行加权,得到最终的上下文向量。网络的最后一层是全连通层,这一层可以得到每一类的概率。图1展示了整个网络的结构,并描述了Kmer分词和注意机制。6mA-Pred采用的注意机制并不复杂,直接作用于LSTM的输出。6mA-Pred的目的是通过全局信息和局部信息的区别获得最终的特征。我们知道特征对应的序列包含修饰位点与对应于不包含修饰位点的序列的特征有很大的不同。
由于这些差异,它们最终的上下文向量也不同。我们利用内积法得到反映全局信息和局部信息交集的注意值。内积不是唯一的选择;其他操作也是可能的。变压器的自我关注也是一个不错的选择,但是模型的网络结构比较复杂。点积可以得到不同序列之间的交集。6mA-Pred使用这种结构来增加最终特征中本地信息的数量。

三、 绩效评估

一个好的模型评价标准是评价模型效用的关键。不同的指标可以从不同的角度来揭示模型的优缺点。灵敏度(Sn)、特异性(Sp)、准确性(Acc)和Mathew的相关系数(MCC)用于评估机器学习模型。这些量度公式如下:

TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性。Sn、Sp、Acc、MCC可以通过这些指标计算出来。此外,使用AUC (ROC曲线下面积)来评价我们的模型。为进一步实验,表2记录了模型的超参数。

四、 不同数据集的性能比较

水稻基因组位点识别的方法包括iDNA6mA-Rice和SNNRice6mA,这两种方法都是很好的模型。iDNA6mA-Rice的开发人员在对特征提取中的不同特征进行比较后,选择了二进制编码,并选择了RF (random forest)作为分类器。特征方法的选择和分类器的性能都很好。将iDNA6mA-Rice应用于水稻数据集的各种尺度分割实验,取得了很好的效果。6mA-Pred应用于与水稻数据集类似的实验。结果如图3所示。
这是水稻数据集在不同比率下的预测性能。(A-D)分别对应模型在不同比例的水稻数据集上的表现。

6mA-Pred的各项性能均优于iDNA6mA-Rice。然而,i D N A 6 m A - R i e i s A ls o A ve R y g o o mo D l, A N D两种模型之间的性能差异非常小。SNNRice6mA在水稻基因上也表现得很好。与iDNA6mA-Rice不同,SNNRice6mA使用了深度学习模型。SNNRice6mA在特征编码阶段采用了one-hot,取得了良好的效果。在整体网络结构上,SNNRice6mA采用了CNN (convolutional neural networks)的堆栈结构。对SNNRice6mA的网络结构进行调整,推出SNNRice6mA-large,也取得了良好的效果。采用SNNRice6mA和SNNRice6mA-large对水稻数据集进行五倍交叉验证。
表3显示了不同模型之间的比较结果。与其他型号相比,6mA-Pred的性能非常优异。

该模型在小家鼠数据集上也表现良好。iDNA6mA-PseKNC在小家鼠基因组中预测6mA位点取得了良好的效果,并采用机器学习方法进行分析。iDNA6mA-PseKNC使用NCP作为特征算法,并对该特征进行了多次实验。另外,iDNA6mA-PseKNC采用了SVM分类器,取得了很好的效果。6mAPred在小家鼠基因组中也能有效识别6mA位点。本研究使用6mA-Pred进行了两个实验,一个是对数据集进行五次交叉验证,一个是通过分割数据集进行独立测试。
表4显示了这两个实验的结果以及iDNA6mA-PseKNC的结果。6mA-Pred的性能保持良好。

在用于鉴定人类基因6mA位点的模型中,SICD6mA是目前最好的模型。SICD6mA是一个深度学习模型,以GRU为基本单元。SICD6mA不仅在人类基因上表现良好,在水稻基因上也表现良好。
我们使用了由SICD6mA的开发人员提供的训练集和测试集进行实验。SICD6mA没有使用one-hot进行编码;相反,它使用了3-mer。网络模型结构采用BGRU和UGRU两个基本单元,并采用两层全连通层和Softmax层对网络进行改进。实验结果表明,SICD6mA具有良好的性能。
表5显示了6mA Pred的实验结果,与SICD6mA的结果非常相似。这些发现证明了6mA-Pred在识别人类基因中6mA位点方面是非常有效的。

根据前面的结论,我们对传统的机器学习方法进行了相关实验。实验中使用了NCP和KMER作为较好的特征提取方法。SVM、RF和XGB算法均为优秀算法,在以往的研究中表现良好。因此,我们用它们来进行进一步的实验。实验结果如图4所示。

基于所有数据集独立测试的6mA-Pred与其他机器学习方法的性能比较。(A-C)分别对应于常用机器学习模型在不同物种KMER特征下的表现。(D-F)是在NCP特征下形成的对比。

总结

通过对现有研究的分析和大量实验的性能比较,我们发现6mA- pred是一种有效的识别6mA位点的方法。LSTM能够很好地处理序列特征,并能获得较好的特征。此外,我们使用的注意机制对6mA位点的识别是有效的。将LSTM与注意机制相结合可以产生一个理论上优秀的模型,实验证明了这一结论的正确性。将考虑相关方法进行RNA和蛋白质修饰预测未来。
本课题前期的研究成果非常优秀,为我们的研究提供了理论和实验支持。提高6mA-Pred的注意机制;例如,自我注意或两种注意机制的组合可以用来获得更好的上下文向量。也可以将CNN和注意力机制相结合,得到一个优秀的方法。这些可能性值得调查。

论文解读:6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning相关推荐

  1. 论文翻译:2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...

    论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model c ...

  2. 论文学习1----理解深度学习需要重新思考泛化Understanding deep learning requires rethinking generalization

    --论文地址:Understanding deep learning requires rethinking generalization 1.有关新闻 1.1 新闻一: 参考1:机器之心 尽管深度人 ...

  3. 点云网络的论文理解(一)-点云网络的提出 PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation

    1.摘要 1.1逐句翻译 Point cloud is an important type of geometric data structure. 点云是一种重要的数据结构. Due to its ...

  4. 【论文解读】HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning

    文章目录 摘要 1 引言 2 相关工作 2 相关工作 3 定义 4 模型 4.1 表示学习 4.1.1 HIN2vec模型 6 结论 摘要 本文提出了一种新的异构信息网络表示学习框架,即HIN2Vec ...

  5. 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)

    论文阅读笔记:原文链接 摘要 生物医学图像国际研讨会(International Symposium on Biomedical Imaging,ISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转 ...

  6. 【论文解读】DPED:DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks

    1 论文简介 DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks: 使用深度卷积网络使用移动设备上的照片生成D ...

  7. 论文阅读笔记之Replacing Mobile Camera ISP with a Single Deep Learning Model

    这篇文章做了啥 根据ccd或者cmos图像传感器获得的图像,要经过一系列的复杂的处理才能得到最终的图像,而且不同的cmos有不同的算法,作者这里的motivation是能不能有一个比较统一的框架来处理 ...

  8. DeepCachNet A Proactive Caching Framework Based on Deep Learning in Cellular Networks论文阅读

    DeepCachNet:蜂窝网络中基于深度学习的主动缓存框架 摘要 ​ 在网络边缘的内容缓存被认为是用于增强蜂窝网络中内容传递效率的合适技术, 由于存储限制,在SBS(小型基站)缓存战略内容至关重要. ...

  9. Prediction of Multidrug-Resistant TB from CT Pulmonary Images Based on Deep Learning Techniques论文总结

    Prediction of Multidrug-Resistant TB from CT Pulmonary Images Based on Deep Learning Techniques 解决的问 ...

最新文章

  1. python判断日期_python如何判断日期的合法性?
  2. AtCoder AGC032D Rotation Sort (DP)
  3. 老生常谈,正确使用memset
  4. centos系统rpm命令
  5. Android--Activity四种启动模式
  6. Python应用实战-用pandas实现数据预处理
  7. 微服务等于Spring Cloud?一文告诉你微服务到底是什么
  8. Oracle 获取每月最后一天的函数
  9. Python第十课(函数3)
  10. pandas DataFrame.shift()函数
  11. 不胜唏嘘!衰落的苹果与崛起的荣耀
  12. 二级计算机c语言各题型,计算机二级C语言都有哪些题型?
  13. Linux更新清华源
  14. 客户端程序员的工具们
  15. TeX Live安装教程
  16. linux下如何查看cpu温度
  17. Java - LinkedHashMap(有序 map)获取第一个元素和最后一个元素
  18. 17届华为杯数学建模大赛B题代码
  19. 2021年工业软件行业研究报告
  20. c# ListBox控件

热门文章

  1. 时下热门的 AR 广告怎么做?广告创意和投放全攻略来了
  2. 自我规范模版A要求2:展示数据列表 (无从表)和导出数据页面
  3. cocos网络通信php,Cocos2D-X服务器的网络通信编程
  4. 微商城如何借势618微信营销?5分钟完成活动策划案
  5. TDS210示波器的应用
  6. 购买新款macbook pro,现在买还是等双十一?
  7. k8s中部署prometheus监控告警系统-prometheus系列文章第一篇
  8. Unity Shader学习-高光反射
  9. CLion2020调整字体大小
  10. Verdi调整字体大小