论文解读:《A Convolutional Neural Network Using Dinucleotide One-hot Encoder for identifying DNA N6-Methyladenine Sites in the Rice Genome》

  • 1.文章概述
  • 2.背景
  • 3.数据
  • 4.方法
    • 4.1 特征编码
    • 4.2 模型框架
  • 5.结果
    • 5.1 基于不同编码器的模型比较
    • 5.2 与最先进的模型进行比较
  • 6.结论

文章地址:https://www.sciencedirect.com/science/article/abs/pii/S0925231220315137
DOI:https://doi.org/10.1016/j.neucom.2020.09.056
期刊:Neurocomputing(二区)
影响因子:5.719
发布时间:2020年9月2日
Web服务器:http://iRicem6A-CNN.aibiochem.net
数据:1760样本-下载链接;154000样本-下载链接

1.文章概述

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是重要的表观遗传修饰之一,与各种DNA过程的控制有关。通过传统的方法进行全基因组m6A分析是基础,但需要很长时间。作者提出了一个新的方案:iRicem6A-CNN,用于识别水稻基因组中的m6A位点,该方案采用二核苷酸(2-mer)One-hot编码技术,通过卷积神经网络产生输入张量进行预测,五倍交叉验证和独立测试的预测精度(ACC)分别达到了93.82% 和96.19% ,表现优于其他可用的预测器。实验结果表明,只有基于二核苷酸One-hot的iRicem6A-CNN能够表现出较高的性能,并且比采用单核苷酸(1-mer)One-hot的模型具有更稳定、更稳健的性能。

2.背景

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是DNA的一种重要化学修饰产物,广泛存在于从真核生物到原核生物的各种生物体内,并与DNA复制、DNA修复和转录调控有关。DNA甲基化的基因组分析已成为下一代测序技术,尤其是单分子实时测序技术的应用越来越广泛。m6A位点的全基因组分布已经有了更好的特征,这导致了对其生物学功能的更好的理解。例如,全基因组的m6A位点研究揭示了m6A在不同的真核生物中的不同调节功能,并表明原核生物中的m6A作为一种标记,用于区分入侵的外来DNA和宿主DNA。
2018年,zhou等人利用 smrt 证明了水稻基因组中0.2% 的腺嘌呤是m6A甲基化的,自从这一发现以来,各种基于机器学习的计算水稻基因组中m6A的方法如雨后春笋般涌现。2019年,chen等人开发了 im6A-Pred,一种基于支持向量机(SVM)的方法,该方法基于包含1760个样本的基准数据集进行训练,准确率(ACC)达到83.13% 。随后,在传统机器学习算法(如 svm、随机森林(RF)和马尔可夫链模型(markov chain model)的基础上发展了其他方法来识别水稻基因组中的m6A位点,这些方法包括:im6A-DNCP、MM-m6Apred、SDM6A、iN6-methylat和iDNAm6A-rice,其中iDNAm6A-rice的ACC最高,为91.7% 。
在这项研究中,作者开发了一个新的方法:iRicem6A-CNN,来提高预测水稻全基因组m6A位点的准确性。作者采用了一个二核苷酸One-hot编码,将DNA序列转换成张量,然后输入设计良好的CNN进行模型优化。在5倍的交叉验证中ACC为93.82% ,在独立测试中ACC为96.19%。实验结果表明,采用二进制One-hot编码的iRicem6A-CNN比采用单核苷酸One-hot编码的iRicem6A-CNN具有更高的鲁棒性和准确性。指标比较结果表明,iRicem6A-CNN具有较好的性能,这不仅是因为它能够稳定地识别阳性样本,还因为它能够更准确地识别阴性样本。

3.数据

分别由 chen等人和 lv等人建立了两个广泛使用的水稻基因组m6A基准数据集,分别标记为Chen-rice-m6A和 Lv-m6A-rice。Chen-rice-m6A数据集由1760个样本组成,其中一半为阳性样本,另一半为阴性样本,已被基于非深度学习算法的报道模型广泛应用。Lv-m6A-rice数据集由154000个阳性样本和154000个阴性样本组成,且被lv等人用在了iDNAm6A-rice方法上,被Yu等人用在了SNNRicem6A方法上。两个数据集中的序列长度为41碱基(bp),中心位置各有一个腺嘌呤(A)。作者考虑到CNN模型需要大量数据的特性,所以采用Lv-m6A-rice数据集进行模型训练,采用Chen-rice-m6A数据集进行独立测试,以方便比较。

4.方法

4.1 特征编码

4.2 模型框架

5.结果

5.1 基于不同编码器的模型比较


5.2 与最先进的模型进行比较

6.结论

在这里,为水稻基因组中m6A位点开发了一种新的基于深度学习的方法:iRicem6A-CNN。该方法输入模型的DNA序列首先转换成一个二核苷酸的One-hot编码张量。作者用实验证明,二核苷酸的One-hot编码模型的性能优于一分体一热编码模型,并且在不同的预测概率阈值下表现出更强的鲁棒性。应用该模型进行水稻基因组m6A位点检测,结果表明,该模型具有较高的5倍交叉验证准确率(93.82%)和独立测试准确率(96.19%) ,是水稻基因组 m6A位点的最佳预测指标之一。作者的分析和比较表明,iRicem6A-CNN不仅能够准确地预测m6A阳性样本,而且能够降低阴性样本识别的错误率。此外,还为iRicem6A-CNN提供了一个用户友好的网络服务器。

论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》相关推荐

  1. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  2. CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...

  3. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  4. FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍

    自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  7. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  8. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  9. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

  10. 论文解读:《功能基因组学transformer模型的可解释性》

    论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

最新文章

  1. Springboot中优雅进行字段校验
  2. BT:大豆皮堆肥过程中的物质转化、微生物群落组成和代谢功能演替
  3. 红帽集群套件RHCS四部曲(维护篇)
  4. decimal是( )数据类型_SQL 通用数据类型
  5. modelsim10.1a安装破解说明
  6. [转]RSA算法简介
  7. firefox启动很慢 linux_Win10安装和使用Linux子系统(WSL 2)完整指南
  8. php 辗转相除法,手撸golang 基本数据结构与算法 最大公约数 欧几里得算法/辗转相除法...
  9. HTML:H5新增表单type属性
  10. mysql的replication(主从同步)总结
  11. 原生JS实现Ajax请求
  12. messagedigest 图片加密_MessageDigest来实现数据加密
  13. Mac OS 开机密码重置
  14. 手机b站封面提取网站_手机b站封面自定义图片大全及获取bilibili视频封面提取网站网址...
  15. 了解了广告行业利益相关方,横扫一切商业模式
  16. 怎么删除计算机多余的启动项,怎么删除Win7多余的开机启动项
  17. 二选一多路器Verilog
  18. 计算机强制关机后桌面图标不见了,强制关机后桌面上的图标全不见了怎么办
  19. c语言中sys是什么文件夹,windows系统中C盘的pagefile.sys是什么文件
  20. 3、低功耗蓝牙(BLE)配对和解绑

热门文章

  1. asp 收集的资料了,为了方便查阅。
  2. Chrome在Win下的跨域解决方案
  3. ubuntu慢?如何给 ubuntu 换源 提速
  4. 盘古BPM工作流平台(DMN)引擎完全开源了
  5. Scarpy爬取当当网书籍
  6. 初次接触tridium niagara软件
  7. randint和randrange的区别
  8. python 画高程图像
  9. CDN工作原理及其在淘宝图片业务中的应用
  10. 如何通过cmd怎么打开计算机管理