m5CPred‑SVM: a novel method for predicting m5C sites of RNA
论文翻译:SVM:一种预测RNA m5C位点的新方法
期刊名: BMC BIOINFORMATICS
中科院分区\影像因子: 2Q/3.169
网站: https ://zhula b.ahu.edu.cn/m5CPr ed-SVM
数据集链接:GEO Accession viewer
文章链接:m5CPred-SVM: a novel method for predicting m5C sites of RNA | BMC Bioinformatics | Full Text
一、摘要
背景:5-胞嘧啶甲基化作为RNA中最常见的转录后修饰(PTCM)之一,在RNA代谢和细胞命运决定等许多生物学功能中发挥重要作用。通过精确识别RNA上的5-甲基胞嘧啶(m5C)位点,研究人员可以更好地了解5-胞嘧啶甲基化在这些生物功能中的确切作用。近年来,预测m5C位点的计算方法因其高效性和低成本而引起了广泛的关注。然而,这些方法的精度和效率都不令人满意,需要进一步改进。
结果:在这项工作中,我们开发了一种新的计算方法m5CPredSVM,用于识别智人、小家鼠和拟南芥中的m5C位点。为了构建这个模型,我们首先按照最近发布的三种方法收集基准数据集。然后,基于RNA片段生成六种基于序列的特征,并使用顺序正向特征选择策略获得最优特征子集。之后,比较了基于不同学习算法的模型的性能,基于支持向量机的模型预测精度最高。最后,将我们提出的方法m5CPred-SVM与现有的几种方法进行了比较,结果表明m5CPred-SVM比以前发表的方法提供了更高的预测精度。预计我们的方法m5CPred-SVM可以成为准确鉴定m5C位点的有用工具。
结论:在本研究中,通过引入位置特异性倾向相关特征,我们建立了一个新的模型m5CPred-SVM,用于预测三种不同物种的RNA m5C位点。结果表明,我们的模型优于现有的最先进的模型。
二、方法与数据集
数据集:6289阳性样本,6289阴性样本。
三个物种非冗余数据集:智人、家鼠、拟南芥
特征提取方法:
KNF(作为一个经典的序列编码特征,K核苷酸频率(KNF,也称为NC(核苷酸组成))已被广泛用于建立生物信息学模型)
KSPNPF:k间距核苷酸对频率是编码RNA序列的另一种方法。该方法主要计算由k长度的多核苷酸分开的16对核苷酸的频率。我们使用n1 × {K}n2来表示K个间隔的核苷酸对。因为n1和n2有四个可能的值,所以有十六(42 = 16)种可能的组合。例如:AxxC是两个间隔核苷酸对。
PSNP:这一特征是通过计算阳性和阴性RNA片段之间特定位置核苷酸频率的差异获得的。
KSPSDP:为了计算K间距的位置特异性二核苷酸倾向,n1 × {K}n2用于表示K间距的核苷酸对。当K等于0时,PSDP是KSPSDP的一个特例。在这项工作中,我们尝试了不同的K值,以确定不同物种的最佳KSPSDP特征。
PseDNC:为了计算K间距的位置特异性二核苷酸倾向,n1 × {K}n2用于表示K间距的核苷酸对。当K等于0时,PSDP是KSPSDP的一个特例。在这项工作中,我们尝试了不同的K值,以确定不同物种的最佳KSPSDP特征。
CPD:RNA中的四类核苷酸(A(腺嘌呤)、U(尿嘧啶)、G(鸟嘌呤)和C(胞嘧啶))根据其化学结构和内部结合特征可分为三类[54]。考虑到核苷酸的环结构,C和U是一个环的嘧啶,而A和G是两个环的嘌呤。至于二级结构,A和U的氢键较弱,而G和C的氢键较强。
三、模型构建支持向量机
支持向量机(SVM)是一种流行的统计学习方法,由于其高效率和稳健的输出,已被广泛用于建立生物信息学模型。在这项研究中,我们使用MATLAB函数FITCSVM来建立我们的模型。SVM使用核函数将低维数据投影到高维空间。在训练中可以使用一些不同的核函数。在这项工作中,径向基核函数选择了两个超参数(盒约束和核尺度)用于FITCSVM函数。
四、结论
在这项研究中,一种新的计算方法,m5CPred-SVM,被开发用于预测RNA序列中的m5C位点。收集了三个物种的非冗余大型基准数据集,即智人、小家鼠和拟南芥。总共六种类型的特征用于建立我们的模型,包括与组成相关的特征、与位置特异性相关的特征和与物理化学性质相关的特征。结果表明,与位置特异性相关的特征对于区分智人和小家鼠的m5C位点和非m5C位点是有效的。核苷酸分布分析揭示了核苷酸位置偏好对于智人和小家鼠都是显著的,这解释了与位置特异性倾向相关的特征的有效性。出于同样的原因,与位置特异性倾向相关的特征对拟南芥来说不是那么有效,因为与其他两个物种相比,核苷酸位置偏好不太重要。使用顺序正向特征选择策略从这六种类型的特征中选择最优特征子集。所有三个子集包括与位置特异性倾向相关的特征和与核苷酸组成相关的特征,这表明特征之间的互补性。通过使用独立的测试集,我们的方法与其他现有方法的性能进行了客观的比较。结果表明,我们的方法可以提供明显优于所有其他现有方法的性能。
m5CPred‑SVM: a novel method for predicting m5C sites of RNA相关推荐
- How Intense Are You? Predicting Intensities of Emotions and Sentiments Using Stacked Ensemble
Title: How Intense Are You? Predicting Intensities of Emotions and Sentiments Using Stacked Ensemble ...
- 详解支持向量机(SVM)算法与代码实现
支持向量机(SVM)算法与代码实现 约束优化问题 硬间隔 SVM 软间隔 SVM 核方法介绍 SVM代码实现 自编函数实现 sklearn.svm.SVC 小结 支持向量机(SVM)算法在分类问题中有 ...
- 易基因|深度综述:RNA m5C修饰的生物学及在肿瘤发生和免疫治疗中的作用
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2022年4月1日,<Biomark Res>杂志发表了题为"Biological roles of RNA m5 ...
- 易基因|干货:手把手教你做RNA m5C甲基化测序分析(RNA-BS)
大家好,这是专注表观组学十余年,领跑多组学科研服务的易基因. 本期,我们讲讲m5C RNA甲基化重亚硫酸盐测序测序(RNA-BS)实验怎么做,从技术原理.建库测序流程.信息分析流程等方面详细介绍. 一 ...
- 易基因|m5C甲基化研究揭示mRNA m5C对维持果蝇生殖干细胞发育的分子机制
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2020年02月18日,Stower研究所解亭教授团队与南方科技大学李思思团队合作研究发现果蝇的YPS蛋白通过优先结合带有m5C修饰的R ...
- 易基因|组学研究:人类胎儿发育过程的DNA羟甲基化(5hmC)和RNA m5C动态重编程
易基因|组学研究:人类胎儿发育过程的DNA羟甲基化(5hmC)和RNA m5C动态重编程 大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2022年5月26日,中国科学院研究团队合作以 ...
- AAAI-19录用论文清单
AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...
- CVPR 2011 全部论文标题和摘要
CVPR 2011 Tian, Yuandong; Narasimhan, Srinivasa G.; , ■Rectification and 3D reconstruction of curved ...
- Machine Learning Summary
Machine Learning Summary General Idea No Free Lunch Theorem (no "best") CV for complex par ...
- 物体6-Dof pose estimation主流方法汇总
作者丨孙文@知乎 来源丨https://www.zhihu.com/question/63159179/answer/257832184 编辑丨3D视觉工坊 主流的方法有下面几种: 基于模板匹配的方法 ...
最新文章
- ios架构篇-2 国际化多语言
- SAP Fiori Elements Service Order edit - why no http request sent
- freemarker 去掉最后一个逗号_从零开始做一个SLG游戏(六)游戏系统以及配置表...
- wso2 esb_使用WSO2 ESB构建制造服务总线(MSB)
- kotlin 判断数字_Kotlin程序检查数字是偶数还是奇数
- java设计模式 组合_JAVA 设计模式 组合模式
- asp.net 下载大文件
- win10安装Visual Studio Code(VSCode)
- java用枚举代替int常量,让你的系统更安全--用枚举enum替代int常量
- SDK和DDK ?
- C#开发串口调试助手的详细教程
- 【微机】ALU的核心就是带标志加法器
- 霍树棠《忆真妃》又名《剑阁闻铃》
- SEOer必读:50个网站推广方法
- xp计算机加域找不到网络路径,手把手为您win10系统计算机加域提示错误“找不到网络路径”的方法...
- 定义一个方法,使用随机的字母+数字生成一个6位数的密码
- html透明表单登录注册页面源码
- 【已解决】ping: www.baidu.com: 未知的名称或服务
- java 内存溢出 扩大jvm内存
- Workbook corruption: seen[2] == 4