论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》
论文解读:《A Convolutional Neural Network Using Dinucleotide One-hot Encoder for identifying DNA N6-Methyladenine Sites in the Rice Genome》
- 1.文章概述
- 2.背景
- 3.数据
- 4.方法
- 4.1 特征编码
- 4.2 模型框架
- 5.结果
- 5.1 基于不同编码器的模型比较
- 5.2 与最先进的模型进行比较
- 6.结论
文章地址:https://www.sciencedirect.com/science/article/abs/pii/S0925231220315137
DOI:https://doi.org/10.1016/j.neucom.2020.09.056
期刊:Neurocomputing(二区)
影响因子:5.719
发布时间:2020年9月2日
Web服务器:http://iRicem6A-CNN.aibiochem.net
数据:1760样本-下载链接;154000样本-下载链接
1.文章概述
N6-甲基腺嘌呤(N6-Methyladenine,m6A)是重要的表观遗传修饰之一,与各种DNA过程的控制有关。通过传统的方法进行全基因组m6A分析是基础,但需要很长时间。作者提出了一个新的方案:iRicem6A-CNN,用于识别水稻基因组中的m6A位点,该方案采用二核苷酸(2-mer)One-hot编码技术,通过卷积神经网络产生输入张量进行预测,五倍交叉验证和独立测试的预测精度(ACC)分别达到了93.82% 和96.19% ,表现优于其他可用的预测器。实验结果表明,只有基于二核苷酸One-hot的iRicem6A-CNN能够表现出较高的性能,并且比采用单核苷酸(1-mer)One-hot的模型具有更稳定、更稳健的性能。
2.背景
N6-甲基腺嘌呤(N6-Methyladenine,m6A)是DNA的一种重要化学修饰产物,广泛存在于从真核生物到原核生物的各种生物体内,并与DNA复制、DNA修复和转录调控有关。DNA甲基化的基因组分析已成为下一代测序技术,尤其是单分子实时测序技术的应用越来越广泛。m6A位点的全基因组分布已经有了更好的特征,这导致了对其生物学功能的更好的理解。例如,全基因组的m6A位点研究揭示了m6A在不同的真核生物中的不同调节功能,并表明原核生物中的m6A作为一种标记,用于区分入侵的外来DNA和宿主DNA。
2018年,zhou等人利用 smrt 证明了水稻基因组中0.2% 的腺嘌呤是m6A甲基化的,自从这一发现以来,各种基于机器学习的计算水稻基因组中m6A的方法如雨后春笋般涌现。2019年,chen等人开发了 im6A-Pred,一种基于支持向量机(SVM)的方法,该方法基于包含1760个样本的基准数据集进行训练,准确率(ACC)达到83.13% 。随后,在传统机器学习算法(如 svm、随机森林(RF)和马尔可夫链模型(markov chain model)的基础上发展了其他方法来识别水稻基因组中的m6A位点,这些方法包括:im6A-DNCP、MM-m6Apred、SDM6A、iN6-methylat和iDNAm6A-rice,其中iDNAm6A-rice的ACC最高,为91.7% 。
在这项研究中,作者开发了一个新的方法:iRicem6A-CNN,来提高预测水稻全基因组m6A位点的准确性。作者采用了一个二核苷酸One-hot编码,将DNA序列转换成张量,然后输入设计良好的CNN进行模型优化。在5倍的交叉验证中ACC为93.82% ,在独立测试中ACC为96.19%。实验结果表明,采用二进制One-hot编码的iRicem6A-CNN比采用单核苷酸One-hot编码的iRicem6A-CNN具有更高的鲁棒性和准确性。指标比较结果表明,iRicem6A-CNN具有较好的性能,这不仅是因为它能够稳定地识别阳性样本,还因为它能够更准确地识别阴性样本。
3.数据
分别由 chen等人和 lv等人建立了两个广泛使用的水稻基因组m6A基准数据集,分别标记为Chen-rice-m6A和 Lv-m6A-rice。Chen-rice-m6A数据集由1760个样本组成,其中一半为阳性样本,另一半为阴性样本,已被基于非深度学习算法的报道模型广泛应用。Lv-m6A-rice数据集由154000个阳性样本和154000个阴性样本组成,且被lv等人用在了iDNAm6A-rice方法上,被Yu等人用在了SNNRicem6A方法上。两个数据集中的序列长度为41碱基(bp),中心位置各有一个腺嘌呤(A)。作者考虑到CNN模型需要大量数据的特性,所以采用Lv-m6A-rice数据集进行模型训练,采用Chen-rice-m6A数据集进行独立测试,以方便比较。
4.方法
4.1 特征编码
4.2 模型框架
5.结果
5.1 基于不同编码器的模型比较
5.2 与最先进的模型进行比较
6.结论
在这里,为水稻基因组中m6A位点开发了一种新的基于深度学习的方法:iRicem6A-CNN。该方法输入模型的DNA序列首先转换成一个二核苷酸的One-hot编码张量。作者用实验证明,二核苷酸的One-hot编码模型的性能优于一分体一热编码模型,并且在不同的预测概率阈值下表现出更强的鲁棒性。应用该模型进行水稻基因组m6A位点检测,结果表明,该模型具有较高的5倍交叉验证准确率(93.82%)和独立测试准确率(96.19%) ,是水稻基因组 m6A位点的最佳预测指标之一。作者的分析和比较表明,iRicem6A-CNN不仅能够准确地预测m6A阳性样本,而且能够降低阴性样本识别的错误率。此外,还为iRicem6A-CNN提供了一个用户友好的网络服务器。
论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》相关推荐
- 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)
最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...
- CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...
- PCT: Point Cloud Transformer
PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...
- FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍
自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...
- Point Cloud Transformer(PCT)代码实现
Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...
- 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》
论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...
- Point Cloud Transformer(PCT)阅读翻译
PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...
- 论文阅读 PCT:Point Cloud Transformer
论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...
- AI论文解读:基于Transformer的多目标跟踪方法TrackFormer
摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...
- 论文解读:《功能基因组学transformer模型的可解释性》
论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...
最新文章
- Springboot中优雅进行字段校验
- BT:大豆皮堆肥过程中的物质转化、微生物群落组成和代谢功能演替
- 红帽集群套件RHCS四部曲(维护篇)
- decimal是( )数据类型_SQL 通用数据类型
- modelsim10.1a安装破解说明
- [转]RSA算法简介
- firefox启动很慢 linux_Win10安装和使用Linux子系统(WSL 2)完整指南
- php 辗转相除法,手撸golang 基本数据结构与算法 最大公约数 欧几里得算法/辗转相除法...
- HTML:H5新增表单type属性
- mysql的replication(主从同步)总结
- 原生JS实现Ajax请求
- messagedigest 图片加密_MessageDigest来实现数据加密
- Mac OS 开机密码重置
- 手机b站封面提取网站_手机b站封面自定义图片大全及获取bilibili视频封面提取网站网址...
- 了解了广告行业利益相关方,横扫一切商业模式
- 怎么删除计算机多余的启动项,怎么删除Win7多余的开机启动项
- 二选一多路器Verilog
- 计算机强制关机后桌面图标不见了,强制关机后桌面上的图标全不见了怎么办
- c语言中sys是什么文件夹,windows系统中C盘的pagefile.sys是什么文件
- 3、低功耗蓝牙(BLE)配对和解绑