平地起高楼之漫谈长非编码RNA
 关于长非编码,我还记得当时在生物化学课上,刘老师专门拿出了半节课向我们介绍长非编码RNA。正好当时也做了笔记,于是结合笔记和网上查阅的资料,简要的写写长非编码RNA。主要思路是介绍长非编码RNA以及相关的数据库,最后在介绍一波由北大开发的预测的工具——CPC。
 基因组被誉为“人类组装说明书”,自从人类基因组计划完成后,人们发现基因仅是由四种碱基组成,它是如此的简单,但又是如此的神秘。其中编码区域仅占基因组的2.9%,可知基因组中由大量不编码的区域,这些区域仍转录成RNA,这些RNA称为非编码RNA。
 早期发现的非编码RNA大多是housekeepingRNA,它们负责细胞的基础代谢,并且在细胞中持续表达。这些RNA包括rRNA、tRNA、snRNA、tmRNA。近几年,人们的研究渐渐转移到了lncRNA(长非编码RNA),这种RNA是长度在200bp以上的非编码RNA。这类RNA虽然不编码蛋白质,但是却具有很重要的调控作用,可以在表达遗传水平,转录水平,转录后水平等多个层次调控基因的表达。并广泛的参与了各种生物学功能。
 由于lncRNA是研究热点,所以相关的数据库众多,下面我将罗列几个主流数据库,供以后参考使用。
LNCipedia:人类lncRNA数据库。
NONCODE:综合性的lncRNA数据库。
lncRNOME:综合性的人类lncRNA数据库。
PlncRNADB:植物lncRNA数据库。
CANTATAdb:植物lncRNA数据库。
GreeNC: 植物lncRNA数据库。
EVLncRNAs:最大实验验证过的lncRNA数据库。
 既然长非编码RNA有着如此重要的作用,所以它的预测无疑是研究攻克的重点。那么本博文将主要以CPC预测软件为例,来探讨通过信息技术手段来预测长非编码RNA。
 CPC,全名:Coding Potential Calculator,它是将预测问题转为二分类问题,在转录本中将基因分为编码的和不编码的。所以我们如何衡量一个序列片段的编码能力呢?这就涉及到了特征的选取。一般是通过一些先验知识确定一些特征,然后通过前向、后向或启发或广度搜索,来进一步决定将哪些特征加入模型中。该工具作者从文献等资料中选取了60多个特征,然后通过前向搜索算法从中筛选出11个特征,继而又用广度搜索算法,最后确定了6个特征。
 在这六个特征中,有三个是基于ORF的特征,分别为Coverage、ORF Intergrity、LOG_ODD score。
Coverage:LORF−(Lmismatch +2∗Lframeshift )Total Length \frac { L _ { O R F } - \left( L _ { \text {mismatch } } + 2 * L _ { \text {frameshift } } \right) } { \text { Total Length } } Total Length LORF​−(Lmismatch ​+2∗Lframeshift ​)​
ORF Intergrity: 即预测的开放阅读框的完整性,指示了开放阅读框是否以起始密码子开始并于该阅读框内的终止密码子结束。
LOG-ODD score:表明了预测的开放阅读的质量,分数越高,质量越好。log⁡Pr⁡(D∣M)Pr⁡(D∣R)\log \frac { \operatorname { Pr } ( D \mid M ) } { \operatorname { Pr } ( D \mid R ) }logPr(D∣R)Pr(D∣M)​
另外三个特征是基于同源性的分析,基本想法是编码的蛋白质的RNA较不编码的RNA更有可能在蛋白质数据库中搜索到相似的蛋白。
of BLASTX hits: 一个真正的编码蛋白的转录本可能比一个非编码蛋白转录本对已知蛋白的有更多的匹配。
Hit Score:衡量匹配的质量。Si=mean⁡j{−log⁡10Eij}S _ { i } = \operatorname { mean } _ { j } \left\{ - \log _ { 10 } E _ { i j } \right\}Si​=meanj​{−log10​Eij​}
Eij是在第i个阅读框中的第j个HSP(high-scoring segment pairs)的E值。首先解释第i个阅读框是啥,在博文《一次探索:基于香农熵预测DNA中编码序列,python实现》中,我们就提到了rna的正向读取方式有三种,所以会产生三个阅读框(reading frames)。而HSP的E值是随机情况下,数据库存在的比当前匹配分数更好的比对的数目。故而E值越低,结果就越可靠。

mean⁡i∈{0,1,2}{Si}=∑i=02Si3\underset { i \in \{ 0,1,2 \} } { \operatorname { mean } } \left\{ S _ { i } \right\} = \frac { \sum _ { i = 0 } ^ { 2 } S i } { 3 }i∈{0,1,2}mean​{Si​}=3∑i=02​Si​
Frame Score: 对于一个真正编码的ORF匹配的相似蛋白质序列是有很大可能在一个阅读框中的,而一个非编码的ORF虽然也有可能匹配到某一具体的蛋白序列,但是匹配到的序列片段会分布在三个阅读框中。故我们可用方差来衡量。variance⁡i∈{0,1,2}{Si}=∑i=02(Si−Sˉ)22\underset { i \in \{ 0,1,2 \} } { \operatorname { variance } } \left\{ S _ { i } \right\} = \frac { \sum _ { i = 0 } ^ { 2 } \left( S _ { i } - \bar { S } \right) ^ { 2 } } { 2 }i∈{0,1,2}variance​{Si​}=2∑i=02​(Si​−Sˉ)2​
 以上就是该工具所选用的六个特征。当然这是07年的工具,在当时是预测的一大利器,但是不可忽视它的局限性。大量lncRNA与编码RNA非常相似,因此lncRNA翻译而得的蛋白质序列与数据库中的蛋白质序列之间,同样易于出现匹配片段,故CPC非常容易将lncRNA判断为编码RNA,造成敏感度较低。其次,CPC严重依赖于序列比对,对待检测序列与比对数据库的质量都有着较高的要求。然而目前测序技术得到的序列时常因信号较弱而出现测序误差,同时数据库中大量物种的注释信息又十分有限,很难为CPC提供充足的数据进行比对。因此CPC在对这类序列进行预测时,其结果不可避免地会产生较大误差,甚至因程序错误而无法进行预测。最后,序列的比对过程非常耗时,CPC可能需要数十小时才能完成几千条序列的预测,因此难以将CPC应用于大规模数据计算任务。目前lncRNA的研究已经越来越聚焦于冷门物种的研究,而物种的序列往往是通过高通量测序技术得来,序列数量巨大,且碱基误差难以避免。

看完有关文献,我才意识到特征选取的重要性,之前妄想用信息熵这一个特征来找到编码蛋白的序列是非常不严谨的。故接下来计划是学习机器学习相关知识结合生物学知识,来进一步解决生物问题。

平地起高楼之漫谈长非编码RNA相关推荐

  1. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

  2. Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

    长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA.与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记 ...

  3. 人类长非编码RNA表达数据库,整合9种重要生物学场景(发育、癌症、病毒侵染等)...

    近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线.该研究成果以`LncE ...

  4. Nucleic Acids Research | NONCODE数据库V6版发布,涵盖全面的动植物长非编码RNA注释

    长非编码RNA(long non-coding RNA,lncRNA)是一类长度大于200nt的非编码RNA.大量研究表明,lncRNA具有重要的调控功能,在植物和动物的各种生物学过程中起着重要作用. ...

  5. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  6. NAR再版 | 人类长非编码RNA知识库LncRNAWiki 2.0

    LncRNA在哺乳动物中大量转录,通过复杂多样的分子机制在多种生物学过程发挥重要功能,与人类疾病的发生发展密切相关.近些年,lncRNA成为基因组学与生物信息学领域的研究热点,涌现出大量研究成果.然而 ...

  7. 原核转录组非编码RNA研究

    本文转载自"美吉生物",己获授权 说到非编码RNA,可能大家会想到真核生物中miRNA .lncRNA和circRNA.确实~"真核非编码RNA三剑客"现阶段进 ...

  8. 《生物信息学:导论与方法》--非编码RNA的预测及分析--听课笔记(十三)

    第七章  非编码RNA的预测及分析 7.1 非编码RNA 以非编码RNA为例,演示如何在RNA-Seq等转录组测序技术产生的RNA数据基础上进一步探索生物学问题. 在转录组中既包括大家早已熟悉的编码蛋 ...

  9. Nucleic Acids Res | 陈润生/何顺民团队发表非编码RNA相互作用数据库NPInter v5.0

    非编码RNA对生物分子的调控作用,一直是RNA功能研究的前沿.在以往的研究中,非编码RNA被发现可以和蛋白质.RNA以及基因组相互作用,调控复杂生物过程.比如经典的长非编码RNA Xist可以和X染色 ...

最新文章

  1. Android Jetpack组件App Startup简析
  2. [转]Cookie/Session机制详解
  3. 8.tomcat认证访问
  4. 封装SQLDMO操作的类
  5. shell脚本打开一个新终端并运行指定脚本
  6. 软件工程(2018)第四次团队作业
  7. 重大活动网络攻击面前,京东智联云的攻防之道
  8. linux程序暂停与恢复,linux c++程序暂停问题
  9. java中static代码块_java中静态代码块详解
  10. 【2020年高被引学者】 韩家炜 伊利诺伊大学香槟分校
  11. 怎样让电脑中的jar包显示Java图标
  12. 软件供应链安全威胁:从“奥创纪元”到“无限战争”
  13. linux grep,sed和awk常用操作
  14. 江苏开启“金环”对话会:政府“牵线”助环保项目与金融“联姻”
  15. 1000元一根的Type C数据线
  16. 学生-课程数据库中的Student表中的学号属性为什么用英文Sno表示?
  17. Tether是操纵市场的幕后黑手吗?
  18. linux:线程同步的5种方法
  19. iOS7中计算UILabel中字符串的高度
  20. 快乐的强化学习2——DQN及其实现方法

热门文章

  1. Linux学习笔记-用户身份与文件权限
  2. HTML5期末大作业:美食主题网站设计——美食主题(6页) HTML+CSS+JavaScript 学生dreamweaver网页设计作业成品
  3. 如何给MP3文件添加封面
  4. 对从事IT的一些想法和憧憬
  5. 盼盼盼,我的贝尔金终于到手了,哈哈!
  6. 删除数组中的某个元素-JAVA
  7. 通俗易懂条件随机场CRF
  8. 怎样在大学里学好编程。开发
  9. HTML ------ 图片和超链接
  10. 什么是拜占庭将军问题?