文章目录

  • 前言
  • 一、简介
  • 二、方法和材料
    • 2.1 数据收集和准备
    • 2.2 序列特征向量的构造
    • 2.3 核苷酸二元剖面
    • 2.4 二核苷酸
    • 2.5 核苷酸化学性质
    • 2.6 特征选择
    • 2.7 机器学习方法
    • 2.8 评价指标
  • 三、结果
    • 3.1 不同分类器的性能比较
    • 3.2 特征选择方法的比较
    • 3.3 特征分析和跨物种性能评价
    • 3.4 比较现有的最先进的方法
    • 3.5 Web服务器实现
  • 总结

前言

2‘-O-甲基化(Nm)是RNA的一种转录后修饰,由2’-O-甲基转移酶催化,涉及到用甲基取代2-羟基上的H。2‘-o-甲基化修饰位点在多种RNA类型(miRNA、tRNA、mRNA等)中均可检测到,在生物过程中起着重要的作用,并与不同的疾病有关。目前开发的功能机制较少,传统的高通量实验探索功能机制耗时且昂贵。为了更深入地了解相关的生物机制,有必要开发基于机器学习的高效、准确的识别工具。
我们构建了一个基于最优混合特征和随机森林分类器的预测器NmRF来识别2‘-O-甲基化修饰位点。该预测器可以同时识别多个物种的修饰位点。为了得到更好的预测模型,采用了两步策略;即将光梯度增强算法和增量特征选择策略相结合,得到最优的混合特征集。
严格的10倍交叉验证和独立测试证实,所提出的方法明显优于现有的工具。一个用户友好的web服务器可以通过http://lab.malab.cn/http://lab.malab.cn//NmRF访问。

一、简介

RNA修饰是一种转录后修饰。目前有160多种修改类型。不同类型的RNA修饰在生物过程中发挥不同的作用,并与不同的疾病相关;2‘-[1–5]-甲基化是由2’-2-甲基转移酶催化,2-羟基上的H被甲基取代;在人类、小鼠和古菌中检测到2‘-甲基化修饰。这种修饰发生在多种RNA类型中(miRNA、tRNA、mRNA等)。该修饰在生物过程中起重要作用。研究表明,RNA2‘-o-甲基化修饰调控基因表达,对不同类型的RNA有不同的影响。例如,对于rRNA,在功能区域周围的2‘-o-甲基化修饰的富集会影响核糖体的结构和功能。
对于mRNA,核糖体帽结构中的2‘-o-甲基化修饰将为RNA传感器Mda5提供相关信息,以区分自身和非自身mRNA。此外,RNA2‘-o-甲基化修饰与人类疾病有关,如先天性肌营养不良、lama2相关、腓骨肌萎缩症、肝细胞癌和肺腺癌。
为了检测更多的2‘-甲基化修饰和发展更多的生物功能机制,已经提出了许多生物实验技术,如基于RNaseH的方法,基于逆转录的方法[26]和基于pcr的方法,但这些生物技术是耗时的。随着测序技术的发展,核苷酸序列将继续增加。因此,为了更快、更方便地预测未知序列中的Nm修饰位点,迫切需要提出对修饰位点进行预测的预测因子。
目前,目前预测RNA2‘-O-甲基化修饰位点的计算工具还很少。2016年,Chen等人使用了支持向量机基于融合核苷酸化学性质和核苷酸成分特征编码方法的分类机器(SVM)构建了第一个计算工具来识别Nm修饰位点,预测器是基于人类数据构建的模型。虽然它预测了小家鼠和酿酒酵母,但它没有显示出其他物种的预测结果。2018年,Yang等人开发了一种基于序列的预测因子,iRNA-2OM,专门用于人类。以SVM和最优特征集为特征,构建了一个预测模型。除了上述两个基于机器学习开发的预测因子外,深度学习还被用于构建预测因子,包括Deep-2‘-O-Me和iRNAPseKNC(2-甲基)。
这两种方法都是基于Chen等人的工作开发的预测器,并使用相同的数据集,但仅针对人类。2019年,Zhou等人开发了一个预测人类HeLa和HEK2.0和Nm修饰位点。该预测因子基于随机森林(RF)和组合多重编码方案(一个热的、位置特异性的二核苷酸序列谱和k核苷酸频率编码)。虽然NmSEER2.0具有良好的预测性能,AUC值为0.862,但它也被专门用于智人RNANm修饰位点的鉴定。虽然上述方法收集了肌肉分枝杆菌和酿酒酵母的数据,但它们并没有开发出多个物种的预测因子,其中大多数仅用于开发人类的计算识别工具。
针对现有方法的缺点,我们开发了一种名为NmRF的2‘-O甲基化修饰位点预测器NmRF。构建NmRF预测模型的过程如图1所示。

在本研究中,我们收集了人类、酿酒酵母和肌肉分枝杆菌的RNA2‘-O-甲基化修饰位点数据,并开发了一个新的基于rf的模型。通过核苷酸的化学性质,将两个核苷酸的二元特征和位置特异性特征融合,通过LGBM结合IFS特征选择获得最优特征集,识别多个物种的2’-o-甲基化修饰位点。
对于智人和酿酒酵母2‘-o-甲基化的实验数据,构建了两个特定的模型。在性能评价下,所开发的预测因子在智人和酿酒酵母中识别2’-o-甲基化修饰位点的10倍交叉验证准确率分别为89.069和93.885%。为了验证该模型的跨物种预测性能,我们在智人模型上对三种物种的修饰位点进行了预测,得到的预测精度良好。然而,基于酿酒酵母构建的模型,对其他两个物种的改良位点的预测精度并不高。这种明显的差异可能是因为智人有更多的数据和携带更多的序列信息,可以更准确地预测跨物种2’-O-甲基化修饰位点

二、方法和材料

2.1 数据收集和准备

用于训练和测试该模型的数据集来自于之前的研究和RMBase数据库。构建的数据集包含三种数据,即智人、酿酒酵母和肌肉分枝杆菌。收集数据集涉及以下步骤。(i)从RMBase数据库中下载包含2’-o-甲基化修饰位点及其在智人、酿酒酵母和肌肉支原体中的位置的RNA序列。(ii)从RMBase数据库中获得的序列为DNA形式,需要通过将T码条目更改为U来转移到RNA序列中。(iii)此外,三个物种的数据集也已下载了以前的研究工作。(iv)结合文献和RMBase数据库中的数据;(v)为了获得高质量的数据集,使用CD-HIT软件对序列进行处理,主要是为了减少冗余和同源性偏差的不利影响,减少对模型的影响。然后,我们使用CD-HIT从原始下载数据集中删除冗余序列,其中智人的身份截断率为80%,酿酒酵母和肌肉分枝杆菌的身份截断率为90%。
通过上述步骤,我们获得了913份RNA序列样本,其中阳性样本360份,阴性样本553份。
从智人、酿酒酵母和肌肉分枝杆菌中获得的阳性和阴性RNA序列数列于表1。

我们将智人数据集划分为215个阳性样本和215个阴性样本的训练集。该测试集包含46个阳性样本和114个阴性样本。对于肌肉分枝杆菌和酿酒酵母,由于数据较少,没有测试集。这些数据可以从用户友好的网络服务器:http://lab.malab.cn/~acy/NmRF。

2.2 序列特征向量的构造

在RNA修饰位点的研究中,构建一个优秀的预测器的关键部分是将RNA序列转化为离散的向量,然后通过机器学习方法识别特征向量。在之前的一篇综述文章中,我们将现有的RNA修饰位点预测研究中使用的序列编码方法归纳为六类:(i)RNA一级序列衍生特征;(ii)核苷酸的物理化学性质;(iii)预测的RNA结构特征;(iv)位置特异性评分矩阵;(v)RNA序列相似性特征和(vi)基因组特征。在目前的工作中,选择了第一和第二种主要类型的特征编码方法来获得序列特征向量,具体包括以下三种特征编码方法。

2.3 核苷酸二元剖面

二进制编码技术广泛应用于生物信息学中,可编码多种蛋白质序列、RNA序列和DNA序列。编码方法测量给定序列修饰位点周围核苷酸的位置特异性信息。本研究基于RNA序列,由四个核苷酸组成:A、U、G和C。因此,通过二进制编码方法将每个单核苷酸转换为特征向量,A、U、G和C表示为(1,0,0,0),(0,0,0,1),(0,0,1,0)和(0,1,0,0)。本文使用的RNA修饰位点数据序列为41nt,因此该编码方法获得的特征向量具有164(4×41)维数。

2.4 二核苷酸

两个核苷酸(PS2)的位置特异性最初是由Doench等人的基于sgRNA编码的,该方法用于研究CRISPR-Cas9的脱靶效应。PS2基于两个核苷酸的一热特征,即二阶特征,并将所有相邻的核苷酸对作为特征,如AA、AC、AG等。因此,有4对×4=16对相邻的核苷酸,因此代表这些核对的变量被编码为16个二进制变量。通过该编码方法,得到了640维的特征向量。

2.5 核苷酸化学性质

核苷酸化学性质(NCP)是研究RNA修饰位点预测中常用的一种特征表达方法。该RNA序列由四个碱基组成:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶©和尿嘧啶(U)。每个核苷酸都有自己的化学结构和内部结合特性。因此,这些碱具有不同的化学性质。RNA修饰的序列特征通常通过三种不同的化学结构性质来编码核苷酸序列。这三种化学结构性质包括氢键、环状结构和官能团。这四种类型的核苷酸被分为三个不同的组。(i)就环结构而言,A和G有两个环结构,而C和U有一个环结构。(ii)在氢键方面,A和U在杂化过程中可以形成两个氢键,而G和C可以形成三个氢键。(iii)在化学官能团方面,A和C含有氨基,G和U含有酮类碱基。基于三种不同的化学结构性质,将这些化学性质纳入RNA样品的特征,RNA序列L的核苷酸可以由向量
,X代表环结构,Y代表氢键,Z代表化学官能团和NCP特征表达方法和计算公式如下:

根据上述化学性质,A的碱基计算为(1,1,1),同样,C、G和U的碱基计算为(0,1,0)、(1,0,0)和(0,0,1)。通过NCP编码,得到了12个三维特征向量。

2.6 特征选择

特征选择是生物序列识别研究的重要步骤之一,它可以有效地去除冗余特征,从而提高模型的稳定性和鲁棒性。本文通过二进制、PS2和NCP特征编码方法,分别获得了164个D、640个D和12个3D特征向量。通过融合这三个特征,得到了927D混合特征。为了避免噪声特征信息对模型构建的影响,我们采用了两步策略来选择最优特征。首先,使用LGBM软件包计算特征的重要性值,并根据其重要性值对特征进行排序。其次,对于578个训练样本序列,927D混合特征中的冗余特征会导致模型的过拟合。因此,采用增量特征选择(IFS)策略,从前100个特征中搜索最优特征子集。

2.7 机器学习方法

从许多常用的机器学习方法中选择最佳的分类算法来建立最优模型。通过RNA修改网站的调查,用于RNA修改网站研究的机器学习算法包括SVMRF、朴素贝叶斯(NB),光梯度推进机(LGBM)、逻辑回归(LR)、决策树(DT),深度学习,集成学习和极端梯度提升(XGBoost)。在本研究中,我们选择了六种常用的机器学习算法来筛选最优算法,包括RF、DT、LGBM、NB、LR和SVM,它们都采用了Scikit-Learn工具包。利用默认参数对6种机器学习算法进行初步筛选,得到参数优化的前两大最优分类器,并确定最优模型的最佳分类器。

2.8 评价指标

为了充分估计所构建的模型的性能,我们采用了10倍交叉验证和独立测试来评估所提出的模型的性能。此外,经常使用四个指标(特异性(Sp)、敏感性(Sn)、准确性(Acc)和Mathew相关系数(MCC)]来评价性能[35,74-83],并定义为
TP表示阳性样本正确预测为真正的Nm修改网站,TN表示阴性样本正确预测为不包含Nm修改网站,FN是真正的Nm修改序列的数量错误预测为假Nm修改序列和FP是假Nm修改序列的数量错误预测为真正的Nm修改序列。此外,除了上述评价指标外,通过分别设置对x轴和y轴的敏感度和1-特异性,生成受试者工作特征曲线(ROC曲线),这是评价所提方法性能的另一个指标。auROC值越接近1,模型的预测性能越好,精度越高。

三、结果

3.1 不同分类器的性能比较

对于混合特征,采用6种常用的分类器对Nm修饰序列和非Nm序列进行分类。补充表S1总结了6种不同的人类分类器和酿酒酵母的物种评价指标,见http://bib.oxfordjournals.org/在线提供的补充数据,使用10倍交叉验证评估的6个模型的Acc和ROC曲线如图2所示。

如图2A和C所示,对于智人,LGBM的准确率最高,Acc为83.489%。其次是RF,Acc为82.326%,精度差不到1%。在酿酒酵母中,LGBM排名第一,Acc为93.136%,RF排名第二,Acc为92.779%。此外,如补充表S1所示,见http://bib.oxfordjournals.org/在线提供的补充数据,在对智人的独立测试下,射频分类器的性能最高,其次是LGBM。如图2B和D所示,RF的AUC最高,分别为0.9199和0.9659。LGBM分类器排名第二,AUC分别为0.9096和0.9478。
由于RF和LGBM的性能非常接近,所以我们选择两者进行后续的优化和比较。基于这两种分类器,我们分别比较了混合特征NCP+PS2+Binary与三个单独的特征描述符和两个特征的组合的性能。结果见补充表S2,见http://bib.oxfordjournals.org/在线提供的补充数据。如补充表S2所示,参见http://bib.oxfordjournals.org/在线补充数据,混合特性NCP+PS2+二进制文件在所有个体特性和其他混合特性中表现最好。它在Acc、Sn和MCC方面都优于其他特性。虽然Sp不是最高的,但它只比其他比较特性稍差一些。与智人相似,混合特征NCP+PS2+Binary在酿酒酵母的所有指标中都取得了最好的性能。基于这些事实,NCP+PS2+二进制组合优于所有特征(包括单个特征和混合特征),并被选择为下一个特征分析实验。

3.2 特征选择方法的比较

为了进一步确定最优分类器,同时选择最优特征子集,我们采用了两步策略来选择最优特征子集。首先,采用方差分析、LGBM和XGBoost三种特征选择技术来计算混合特征集的特征重要值。三种特征选择技术以不同的方式计算特征重要值,然后根据重要值对混合特征集的各维度的特征进行排序。其次,对于通过不同特征选择方法得到的排序混合特征列表,我们选择了前100个D特征,并通过IFS策略选择了RF分类器下最优特征子集的维数。实验结果如图3和表2所示。

为了确定最优分类器,在三种不同的特征选择方法下,比较了RF和LGBM分类器的AUC,如图3A1和A2所示。图3A1和A2分别为智人和酿酒酵母的AUC值的比较。直方图的比较结果显示,在三种不同的特征选择方法下的智人,RF分类器的AUC值都高于LGBM分类器的AUC值。对于酿酒酵母,RF性能也是最好的。
确定了最优分类器,并利用IFS选择了智人和酿酒酵母的最优特征子集维数。从图3B1和B2可以看出,在前20个维度中,三种不同的特征选择方法的精度随着特征数量的增加而急剧提高。随着特征数量的增加,精度趋于幸运。从图3B1可以看出,对于智人,LGBM_RF(蓝色曲线)的准确性高于XGBoost_RF(黄色曲线)和ANOVA_RF(红色曲线)。因此,在LGBM_RF为模型下,最优特征子集的维数为47D,得到的最高精度为89.069%。在XGBoost_RF模型和LGBM_RF模型下,最优特征集分别为52D和68D,准确率分别为87.674和86.046%。对于酿酒酵母,LGBM_RF模型(蓝色曲线)的准确率最高,为93.885%,最优特征子集的维数为29D,XGBoost_RF模型(黄色曲线)的准确率居第二,为93.166%,维数为70D。ANOVA_RF模型(红色曲线)的Acc最低,为91.367%(82D)。图3C1、C2和表2是三种特征选择方法下获得不同最优特征子集的ROC曲线和各种评价指标的比较。
结果表明,特征选择方法的ROC值
不同物种的LGBM最高,获得的最佳特征子集分别为智人和酿酒酵母的47D和29D。
此外,对于智人LGBM_RF模型,当最佳特征子集为47D时,Sn、Sp、ACC、MCC和AUC分别为87.44%、90.561%,分别为89.069%、0.7837和0.9498;Sp略低于XGBoost_RF,而其他的则最高。

同样,对于酿酒酵母,得到的最优特征子集为29D,LGBM_RF模型获得了各种指标,如Sn=82.083%、Sp=99.474%、Acc=93.885%、MCC=0.86和AUC=0.9832。
因此,通过实验比较,确定了构建模型的最优分类器是RF。对于智人和酿酒酵母,通过LGBM特征选择方法得到的最优特征子集分别为47D和29D。我们将获得的最优特征集与原始混合特征集和三个个体特征(Binary、NCP和PS2)进行可视化分析,如图补充图S1所示,见http://bib.oxfordjournals.org/在线提供的补充数据。

特征选择后的特征集能够更准确地区分正样本和负样本,原始混合特征集是正样本和负样本的混合。因此,寻找的最优特征子集可以更准确地从非2’-o-甲基化位点中识别出2’-甲基化位点。

3.3 特征分析和跨物种性能评价

通过对之前的特征选择方法的优化,通过LGBM和IFS对智人选择47D最优特征集。对于酿酒酵母,采用LGBM和IFS选择了29D最优特征。
在图4中,A和B分别表示智人和酿酒酵母的最优混合特征的分析,图4H_1和S_1表示最优混合特征中三个特征所占据的特征数量。无论物种如何,NCP都有更多的特征维度,超过50%。H_2和S_2表示三种特征在最优特征集中总特征数中的百分比,NCP特征在最优混合特征集中包含的特征数最多。智人的最佳混合特征包括NCP_24D、PS2_11D和binary_12D。H_3和S_3是根据特征的重要性进行排序的直方图。分析了这两个物种的最佳特征的前5D。列表中显示了前5D特性的详细代表性特征。对于智人,PS2特征的最高值表明其对预测的贡献更大。第二位和第三位都是NCP的特征。结合H_1、S_1、H_2和S_2表明,NCP特征对预测也有更大的影响。酿酒酵母,前3d特性都是二进制特性,表明对于这个物种,二进制特性对预测的贡献更大,它可以从H_3和S_3一维特征的重要性值和二维特性有很大的差距。智人和酿酒酵母的最优特征集47D和29D中所包含的详细特征类型列在补充表S3中,见http://bib.oxfordjournals.org/在线提供的补充数据。
综上所述,本研究选择的三个特征有利于预测RNA2‘-O-甲基化修饰位点,可以获得更多的序列信息。此外,两种物种的最优特征并不相同,说明不同物种间存在差异。
为了验证所构建的模型的跨物种预测性能,我们通过训练智人和酿酒酵母的2’-o-甲基化修饰位点,构建了一个特定的模型。为了评价两种特定模型的性能,我们采用三个物种的数据作为独立测试。跨物种预测精度的结果如图5的热图所示。
在智人和酿酒酵母模型下预测这三个物种时,大多数的预测精度可以被接受。由于缺乏关于肌肉支原体的数据,因此没有专门构建肌肉支原体的模型,因此采用智人和酿酒酵母的模型对肌肉支原体进行了预测。
热图显示,肌肉支原体对智人训练模型的预测精度为84.44%,而对酿酒酵母模型的预测结果并不理想。酿酒酵母训练的模型对智人的预测效果也不理想,这可能是因为智人数据越多,酿酒酵母的酿酒酵母数据越少,不能携带更多的序列信息,导致预测精度较低。因此,上述分析说明了基准数据在构建模型中的重要性。此外,它还证明了所构建的2’-o-甲基化位点模型是稳定和稳健的。

3.4 比较现有的最先进的方法

目前基于机器学习开发的识别Nm修饰位点的方法都是基于智人数据集。为了与现有的现有方法进行比较,对所构建的智人的新数据进行了预测,并将所得结果与所开发的NmRF预测器的预测结果进行了比较。与现有方法的比较结果如表3所示。
所开发的NmRF预测工具的性能最好。通过10倍交叉验证评价模型的性能,Sn、Sp、Acc和MCC的评价指标分别为87.44%、90.56%、89.069%和0.7837。通过独立测试集评价性能,Sn、Sp、Acc和MCC分别为89.13%、85.96%、86.88%和0.7097。
NmRF预测器的10倍交叉验证精度分别比Chen的方法和iRNA-2OM高出14.185和14.883%。通过独立测试验证了模型的性能,通过NmRF预测器得到的Acc分别比Chen的方法和iRNA-2OM高3.861和5.767%。为了与NmSEER2.0进行公平的比较,我们在我们的数据集上训练和重建了NmSEER2.0预测模型。性能结果也总结在补充表S4中,见http://bib.oxfordjournals.org/在线提供的补充数据,智人的结果也汇总在表3中进行比较。我们观察到,我们的预测器在交叉验证测试和独立测试上都表现出优于NmSEER2.0的性能。例如,我们的NmRF的Acc在训练集和测试集中的∼分别比NmSEER2.0高出10和7%。可以看出,我们的预测器对性能的改善是显著的。
此外,由于NmRF涉及的特征较少(与其他预测因子使用的数百个特征相比,智人模型中仅使用47个特征,酿酒酵母模型中使用29个特征),它可以显著降低计算成本。这些结果证明了所提出的NmRF的稳定性和优越性,预计它将成为识别RNA纳米修饰位点的有效和有用的计算工具。

3.5 Web服务器实现

一个名为NmRF的用户友好的网络服务器已经建立起来,用于RNA2‘-O-甲基化修饰位点的预测,现在可以在http://lab.malab上免费获得。cn/∼系统/NmRF,其界面见补充图S2,见http://bib.oxfordjournals.org/在线提供补充数据。为了验证我们的发现,我们可以从web服务器上下载RNA多物种Nm修饰位点数据集。
Web服务器要求输入序列的格式为FASTA
序列长度为41bp,以确定未知序列是否为Nm修饰位点序列

用户需要先在左边的输入框中选择物种,然后以FASTA格式输入或粘贴未知序列,点击“提交”按钮,预测结果将显示在右边的输出框中。在继续下一个任务之前,用户需要单击“清除”按钮,清除左侧输入框中的序列数据,激活“提交”按钮,然后输入新的RNA序列。FASTA格式的详细说明和示例可以在web服务器界面上找到。

总结

本研究开发了一种基于RF的新预测因子,它可以识别多个物种中的RNA2’-o-甲基化修饰位点。为了获得最优的特征子集,我们选择了RNA初级序列衍生的特征编码方法和核苷酸化学性质特征编码方法,包括二进制、PS2和NCP。采用特征融合方法对三种特征进行融合,并采用两步策略(LGBM_IFS)从混合特征集中选择最优特征子集。
为了验证模型的性能,除了与常用的机器学习算法进行比较外,还与现有的方法进行了比较。在最优特征子集下,RF比LGBM算法能更好地区分nm修饰点和非nm修饰点。在10倍交叉验证和独立检测下,与现有方法相比,NmRF分别提高了3.861–14.185%和5.767–14.883%的准确性。此外,我们还提供了一个在线web服务器的安全性/NmRF,用于识别RNA2‘-http://lab.malab.cn/∼-甲基化修饰位点。除了试图扩展不同物种的RNA2’-甲基化数据外,我们还将探索特征编码方法(如图神经网络),以在未来的工作中提高模型的性能。

NmRF:从RNA序列中鉴定多物种RNA2‘-o-甲基化修饰位点(假尿苷位点)相关推荐

  1. 神经网络预测RNA序列中RBP结合位点-RNA序列二分类

    一.简介 本文使用源自CLIP-seq的数据集ALKBH5_Baltz2012数据集进行实验,旨在使用神经网络来预测RNA序列中的RNA-蛋白质结合位点,实现RNA序列数据的分类任务. 二.数据预处理 ...

  2. 论文解读:《利用深度学习方法识别RNA伪尿苷位点》

    论文解读:<Identification of RNA pseudouridine sites using deep learning approaches> 1.文章概括 2.背景 3. ...

  3. DNA和RNA修饰的鉴定和编辑技术前沿综述 (全文翻译版)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  4. metaProdigal:宏基因组序列中的基因和翻译起始位点预测

    文章目录 metaProdigal:宏基因组序列中的基因和翻译起始位点预测 热心肠日报 摘要 动机 Motivation 结果 Results 可用性 Availability 主要结果 表1. 大肠 ...

  5. Bioinformatics:吉林大学刘富组-深度学习从宏基因组序列中识别短病毒序列Virtifier...

    Virtifier: 基于深度学习方法的宏基因组病毒序列分类方法 Virtifier: a deep learning-based identifier for viral sequences fro ...

  6. RNA序列转DNA序列

    silva数据库中用的是RNA序列,我们将其转换成DNA序列.正链序列只要把U转换成T即可(大部分软件都支持正反链比对),利用R实现如下: read.table("SILVA_132_LSU ...

  7. 生物序列中字母的意义

    文章目录 碱基序列 蛋白质序列 "中心法则"指出了生物信息流的基本准则:DNA转录为mRNA,再翻译成蛋白质.而组成DNA和RNA的就是各种脱氧核糖核苷酸或核糖核苷酸,组成蛋白质的 ...

  8. Python生物信息学①将RNA序列翻译成蛋白质序列。

    环境 OS version : Win10 x64 python_version : Python 3.6.5 实例代码 codon_table = {'GCU':'A', 'GCC':'A', 'G ...

  9. Python找出序列中出现最多的元素

    运用场景 有时候我们需要统计一个序列中出现最多或者次多的元素,或者是给你一段文字,这段文字中出现最多的词是什么,以及每个词出现的次数,这个在写代码的初级篇大家都会遇到. 一般的做法,我肯定会用一个字典 ...

  10. python中的enumerate函数用于遍历序列中的元素以及它们的下标

    enumerate 函数用于遍历序列中的元素以及它们的下标: >>> for i,j in enumerate(('a','b','c')):  print i,j 0 a 1 b ...

最新文章

  1. 算法设计与分析第2章 递归与分治策略
  2. 常用免费精品Web应用列表(转)
  3. KEILC51警告:WARNING L15: MULTIPLE CALL TO SEGMENT
  4. JavaScript开发的技巧
  5. pytorch forward_【Pytorch部署】TorchScript
  6. linux 命令 kps,Linux顶级命令.内存使用情况
  7. linux编程基础黑马要点总结,黑马《linux基础编程》学习笔记(从6到10)
  8. 距离矢量算法matlab实现,一种基于最小费用距离模型的城市生态网络构建方法与流程...
  9. 神经网络仿真实验matlab,神经网络及其matlab实现
  10. 万年历c语言代码3000年,求万年历代码!
  11. 计算机操作系统操作系统(第四版)汤小丹版 思维导图(第一章到第七章)
  12. 《信号与系统》解读 第1章 信号与系统概述-1:信号与系统的描述和分析方法
  13. 他们的爱情 王小波和李银河
  14. Python标准库(各种模块介绍)
  15. Chromium 手势插件
  16. jquery局部打印插件使用
  17. python怎么变成白色_在python中将一系列颜色更改为白色
  18. python依照概率抽样_统计概率思维之总体与抽样
  19. aws认证,aws有哪些认证,有什么用
  20. css安卓手机位置偏差,完美解决移动端使用rem单位时CSSSprites错位问题_html/css_WEB-ITnose...

热门文章

  1. java date the type is ambiguous_一个java ambiguous method 的问题
  2. 使用java代码画一棵圣诞树
  3. 内网网段范围_局域网IP段有哪些 - 卡饭网
  4. IDEA如何快速切换项目(快捷键切换)
  5. ASP.NET 即时通信,WebSocket服务端实例
  6. 老板让我通知领导们开会,有几个领导故意开会迟到,老板反而说我不会办事,怎么办?...
  7. 为什么你的有道云笔记越来越不好用?三个细节解决你的烦恼
  8. Java的ASCII编码表
  9. 《学习Oracle从这里开始》之常用SQL篇
  10. 知识兔课程揭秘跨境电商的大骗局,你有没有被坑过!